![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark学习
Mr_Jia_Yuan
生而为人,什么是正确
展开
-
Spark Shuffle过程理解
拿reduceByKey举例:在spark中,数据通常不会为了一个特定的操作而分布在特定的分区partitions。在计算过程中,一个task只会在一个partition分区上执行,因此,为了把所有的数据组织到一个reduce task (例如reduceByKey)中执行,Spark需要执行一个all-to-all操作,该操作需要读取所有partition上key value的值,然后将翻译 2016-03-15 22:30:17 · 1674 阅读 · 0 评论 -
Spark RDD 的创建 & Accumulators
一:scala集合的并行化;val data = Array(1, 2, 3, 4, 5)val distData = sc.parallelize(data)二:从shared filesystem, HDFS, HBase, or any data source offering a Hadoop InputFormat.读取;scala> val distFile翻译 2016-03-14 20:58:57 · 783 阅读 · 0 评论