2017年01月_煉心_

08月 06月 05月 04月 03月 02月 01月

原创 Spark编程指南入门之Java篇七-共享变量

11. 共享变量通常情况下，当一个传递给Spark操作的函数(例如map或者reduce)在远程集群节点执行时，函数使用的所有变量都是原变量的副本。这些变量被复制到集群的每一台服务器，在各个远程服务器更新的变量是不会更新回驱动节点程序的。不同任务读写共享变量的效率是比较低的，然而，Spark提供了2种限制类型的共享变量，广播变量和累加器。 11.1 广播变量广播变量允许编程者

2017-01-20 09:33:49 1700

原创 java.lang.NoSuchMethodError: org.apache.hadoop.fs.FSOutputSummer.<init>(Ljava/util/zip/Checksum;II)V

环境： - Spark 2.11-2.0.2版本(在Eclipse下面使用Maven引入spark-core_2.11-2.0.2.jar) - Hadoop 2.6.5版本使用Spark的Java APIs(saveAsTextFile方法)把大量的日志导入远程的HDFS，遇到下面的java.lang.NoSuchMethodError: org.apache.hadoo

2017-01-16 15:56:01 3269

原创 Spark编程指南入门之Java篇六-RDD持久化介绍

10. RDD持久化 Spark其中一个重要的功能是持久化(或缓存)数据到内存。当持久化一个RDD时，每一个节点会把计算后的分区数据保存在内存里面，然后后续的操作可以直接重用内存里的数据。这样可以提高后续操作的计算速度(通常是10倍以上)。缓存是迭代算法和快速交互式使用的关键工具。 RDD的持久化可以使用persist()或者cache()方法，数据会在第一次计算后缓存在各节点的内存里

2017-01-12 16:47:16 1641

原创 Spark编程指南入门之Java篇五-数据重组Shuffle介绍

9. 数据重组Shuffle介绍 Spark的某些操作会触发数据重组Shuffle事件。Shuffle是Spark对各分区的数据进行重新分布的机制，是一个复杂而且代价较高的操作，因为一般需要在执行器和数据节点之间进行数据复制。 9.1 背景我们可以通过reduceByKey操作的例子来理解shuffle过程。reduceByKey操作将原PairRDD中具有相同key的元素聚合

2017-01-11 15:55:46 1594 1

原创 Spark编程指南入门之Java篇四-常用Actions操作

8. 常用的Actions操作 T reduce(Function2 f) 使用指定的函数f聚合数据集中的元素，该函数把数据集中的每2个元素聚合成一个，一直递归直到得出最后一个元素 java.util.List collect() 以List形式返回数据集的所有元素到驱动程序节点，通常用于filter或其它返回足够少数据的操作之后 long count() 返回数据集中元素的个数

2017-01-10 11:57:52 1425

spark-core_2.11-1.5.2.logging.jar

spark-core_2.11-2.0.0.jar比spark-core_2.11-1.5.2.jar少了org.apache.spark.Logging.class，故此把缺少的class放到spark-core_2.11-1.5.2.logging.jar里面

2016-11-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人