ExternalSorter

ExternalSorter的注释 这个类的注释提供了关于它的设计的很多信息,先翻译一下。 这个类用于对一些(K, V)类型的key-value对进行排序,如果需要就进行merge,生的结果是一些(K, C)类型的key-combiner对。combiner就是对同样key的v...

2017-12-02 19:42:09

阅读数 108

评论数 0

Spark Sort Based Shuffle内存分析

前言 借用和董神的一段对话说下背景: shuffle共有三种,别人讨论的是hash shuffle,这是最原始的实现,曾经有两个版本,第一版是每个map产生r个文件,一共产生mr个文件,由于产生的中间文件太大影响扩展性,社区提出了第二个优化版本,让一个core上map共用文件,减少文件数目,这样...

2017-12-02 19:41:04

阅读数 81

评论数 0

Spark-1.6.0中的Sort Based Shuffle源码解读

从Spark-1.2.0开始,Spark的Shuffle由Hash Based Shuffle升级成了Sort Based Shuffle。即Spark.shuffle.manager从Hash换成了Sort。不同形式的Shuffle逻辑主要是ShuffleManager的实现类不同。    在...

2017-12-02 19:40:01

阅读数 215

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭