cauchemare_li-CSDN博客

原创 Scala_03名词解释

基本数据结构：怎样使用集合：

2017-05-24 17:02:30 278

原创 [Spark_API]Transformation-reduceByKey()和aggregateByKey()

aggregateByKey()与reduceByKey()(两者都会调用combineByKey())，唯一不同的是aggregateByKey()你会给出一个初始值zeroValue. 之所以reduceByKey()更好，是由于它使用了MapReduce的combiner这个特征，比如在类似+，*的这类combiner函数计算中,由于元素的顺序都无关紧要，使得Spark能够在多个分区上聚合

2017-05-10 17:24:14 472

翻译理解Spark包中闭包

了解spark难解的地方之一就是明白在集群上运行代码时，明白变量和函数的作用范围和生命周期,在作用域外修改变量的RDD操作很多时候会产生麻烦。接下来展示的例子我们会使用foreach() 来增加变量counter，相类似的问题也可能同样出现在其他loop问题中. 例子：对于RDD中元素(element)求和。即使使用相同的JVM代码,由于不同的操作环境，操作的结果也可能不同，常用的例子是用S

2017-05-09 09:38:45 1195

原创 [Spark base]-01

首先学习基本的linux指令是必须的下面给出ubuntu环境下搭载spark http://blog.csdn.net/u010171031/article/details/51849562 其中特别是要找到spark-1.6.1-bin-hadoop2.6/usr 的绝对位置,，加上source /etc/profile 然后可以执行任何的python_shell(scala)

2017-05-08 10:19:29 181

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 Scala_03名词解释

原创 [Spark_API]Transformation-reduceByKey()和aggregateByKey()

翻译 理解Spark包中闭包

原创 [Spark base]-01

空空如也

空空如也

翻译理解Spark包中闭包