自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 资源 (1)
  • 收藏
  • 关注

原创 Spark编程指南入门之Java篇七-共享变量

11. 共享变量 通常情况下,当一个传递给Spark操作的函数(例如map或者reduce)在远程集群节点执行时,函数使用的所有变量都是原变量的副本。这些变量被复制到集群的每一台服务器,在各个远程服务器更新的变量是不会更新回驱动节点程序的。不同任务读写共享变量的效率是比较低的,然而,Spark提供了2种限制类型的共享变量,广播变量和累加器。 11.1 广播变量 广播变量允许编程者

2017-01-20 09:33:49 1700

原创 java.lang.NoSuchMethodError: org.apache.hadoop.fs.FSOutputSummer.<init>(Ljava/util/zip/Checksum;II)V

环境: - Spark 2.11-2.0.2版本(在Eclipse下面使用Maven引入spark-core_2.11-2.0.2.jar) - Hadoop 2.6.5版本 使用Spark的Java APIs(saveAsTextFile方法)把大量的日志导入远程的HDFS,遇到下面的java.lang.NoSuchMethodError: org.apache.hadoo

2017-01-16 15:56:01 3269

原创 Spark编程指南入门之Java篇六-RDD持久化介绍

10. RDD持久化 Spark其中一个重要的功能是持久化(或缓存)数据到内存。当持久化一个RDD时,每一个节点会把计算后的分区数据保存在内存里面,然后后续的操作可以直接重用内存里的数据。这样可以提高后续操作的计算速度(通常是10倍以上)。缓存是迭代算法和快速交互式使用的关键工具。 RDD的持久化可以使用persist()或者cache()方法,数据会在第一次计算后缓存在各节点的内存里

2017-01-12 16:47:16 1641

原创 Spark编程指南入门之Java篇五-数据重组Shuffle介绍

9. 数据重组Shuffle介绍 Spark的某些操作会触发数据重组Shuffle事件。Shuffle是Spark对各分区的数据进行重新分布的机制,是一个复杂而且代价较高的操作,因为一般需要在执行器和数据节点之间进行数据复制。 9.1 背景 我们可以通过reduceByKey操作的例子来理解shuffle过程。reduceByKey操作将原PairRDD中具有相同key的元素聚合

2017-01-11 15:55:46 1594 1

原创 Spark编程指南入门之Java篇四-常用Actions操作

8. 常用的Actions操作 T reduce(Function2 f) 使用指定的函数f聚合数据集中的元素,该函数把数据集中的每2个元素聚合成一个,一直递归直到得出最后一个元素 java.util.List collect() 以List形式返回数据集的所有元素到驱动程序节点,通常用于filter或其它返回足够少数据的操作之后 long count() 返回数据集中元素的个数

2017-01-10 11:57:52 1425

spark-core_2.11-1.5.2.logging.jar

spark-core_2.11-2.0.0.jar比spark-core_2.11-1.5.2.jar少了org.apache.spark.Logging.class,故此把缺少的class放到spark-core_2.11-1.5.2.logging.jar里面

2016-11-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除