- 博客(4)
- 资源 (26)
- 收藏
- 关注
原创 Spark RDD与共享变量简介
hadoop有两个东东:HDFS(存储)和MapReduce(计算)。MapReduce计算比较慢,于是Spark(速度是MR的10~100倍)出现了。Spark有两个核心的概念:弹性分布式数据集RDD与共享变量。下面进行一下简单的介绍。 弹性分布式数据集(RDD)获得方式:1 并行化驱动程序内的集合; 2 从外部数据集加载。 1 并行化驱动程序内的集合code demo val d
2014-11-20 10:58:21 2649
原创 sqoop使用例子
简介: sqoop是工具,一个可以把ORACLE、MYSQL中的数据导入到HDFS、HIVE、HBASE中(反过来也可以)的工具。下面是一些使用的例子。留下做个参考: #从Mysql中抽取数据到HDFS.问题:文件太多,全他妈是小文件;目标目录如果已经存在会报错 sqoop import --connect jdbc:mysql://10.10.244.137/test --username
2014-11-08 13:25:39 2131
原创 YARN架构简介
MapReduce has undergone a complete overhaul in hadoop-0.23 and we now have, what we call, MapReduce 2.0 (MRv2) or YARN. The fundamental idea of MRv2 is to split up the two major functionalities of th
2014-11-03 23:28:10 1159
原创 CDH5.2+CM5.2+impala2+Spark1.1 集群搭建基础环境准备
测试集群简介:一共有4台机器:10.10.244.136、10.10.244.137、10.10.244.138、10.10.244.139。10.10.244.136是管理节点,另外3台是存储节点。准备工作详情如下: 1 在四台机器上安装CentOS release 6.5 (Final) 64位(管理节点需要安装Mysql\Postgresql\redhat_lsb) 2 CDH5.2(
2014-11-03 10:02:43 1950 1
ARPU预测.docx
2019-12-02
MLlib-Scalable Machine Learning on Spark
2014-12-16
Hadoop运维杂记
2013-07-16
jps判断hadoop启动是否成功
2013-06-23
Hadoop Shell命令大全
2012-10-30
SVN工具使用培训资料
2012-10-30
SecureCRT&FX64;位及破解
2012-10-15
功能健全的网页在线预览,在线打印js插件
2011-02-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人