spark
_bruceYim
这个作者很懒,什么都没留下…
展开
-
Spark环境搭建(三)
6.Spark环境搭建 6.1.Spark的运行模式 local standalone mesos yarn 6.2.Spark的集群搭建 1.安装JDK(建议JDK7以上) 2.安装Scala(建议2.10.4) 3.安装Hadoop2.x(至少HDFS) Configuration hadoop-env.sh ex原创 2015-11-21 11:36:08 · 555 阅读 · 0 评论 -
spark之RDD(四)
7.Spark一切都以RDD为基础 RDD resilient distributed dataset 弹性分布式数据集 --a list of partitions 分区列表 --a function for computing each split 计算每个切片的函数 --a list of dependencies on other rdds 对其他RDD的依赖列原创 2015-11-21 11:39:54 · 265 阅读 · 0 评论 -
Spark1.x编译(二)
5.Spark1.x编译 5.1.Spark1.x编译方式: Maven SBT 打包编译make-distribution.sh 5.2.Maven编译 1.安装JDK 2.安装Maven3.0.4或以上 3.安装Scala 4.下载Spark源码包 1.上传 2.解压spark源码包 3. 设置Maven的内存使用 export MAVEN_OPTS="原创 2015-11-21 11:34:02 · 309 阅读 · 0 评论 -
spark简介(一)
1. spark简介 Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。 2. spark框架原创 2015-11-21 11:29:09 · 332 阅读 · 0 评论