![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
sparkShuff
丹江怒潮
这个作者很懒,什么都没留下…
展开
-
Spark-1.6.0中的Sort Based Shuffle源码解读
从Spark-1.2.0开始,Spark的Shuffle由Hash Based Shuffle升级成了Sort Based Shuffle。即Spark.shuffle.manager从Hash换成了Sort。不同形式的Shuffle逻辑主要是ShuffleManager的实现类不同。 在org.apache.spark.SparkEnv类中: // Let the user speci转载 2017-12-02 19:40:01 · 320 阅读 · 0 评论 -
ExternalSorter
ExternalSorter的注释 这个类的注释提供了关于它的设计的很多信息,先翻译一下。 这个类用于对一些(K, V)类型的key-value对进行排序,如果需要就进行merge,生的结果是一些(K, C)类型的key-combiner对。combiner就是对同样key的value进行合并的结果。它首先使用一个Partitioner来把key分到不同的partition,然转载 2017-12-02 19:42:09 · 431 阅读 · 0 评论 -
Spark Sort Based Shuffle内存分析
前言 借用和董神的一段对话说下背景: shuffle共有三种,别人讨论的是hash shuffle,这是最原始的实现,曾经有两个版本,第一版是每个map产生r个文件,一共产生mr个文件,由于产生的中间文件太大影响扩展性,社区提出了第二个优化版本,让一个core上map共用文件,减少文件数目,这样共产生corer个文件,好多了,但中间文件数目仍随任务数线性增加,仍难以应对大作业,但hash shu转载 2017-12-02 19:41:04 · 185 阅读 · 0 评论