- 博客(4)
- 收藏
- 关注
原创 [Spark_API]Transformation-reduceByKey()和aggregateByKey()
aggregateByKey()与reduceByKey()(两者都会调用combineByKey()),唯一不同的是aggregateByKey()你会给出一个初始值zeroValue. 之所以reduceByKey()更好,是由于它使用了MapReduce的combiner这个特征,比如在类似+,*的这类combiner函数计算中,由于元素的顺序都无关紧要,使得Spark能够在多个分区上聚合
2017-05-10 17:24:14 472
翻译 理解Spark包中闭包
了解spark难解的地方之一就是明白在集群上运行代码时,明白变量和函数的作用范围和生命周期,在作用域外修改变量的RDD操作很多时候会产生麻烦。接下来展示的例子我们会使用foreach() 来增加变量counter,相类似的问题也可能同样出现在其他loop问题中. 例子: 对于RDD中元素(element)求和。即使使用相同的JVM代码,由于不同的操作环境,操作的结果也可能不同,常用的例子是用S
2017-05-09 09:38:45 1195
原创 [Spark base]-01
首先学习基本的linux指令是必须的 下面给出ubuntu环境下搭载spark http://blog.csdn.net/u010171031/article/details/51849562 其中特别是要找到spark-1.6.1-bin-hadoop2.6/usr 的绝对位置,,加上source /etc/profile 然后可以执行任何的python_shell(scala)
2017-05-08 10:19:29 181
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人