- 博客(1)
- 收藏
- 关注
转载 Spark源码分析 – Shuffle
Hadoop Hadoop的思路是, 在mapper端每次当memory buffer中的数据快满的时候, 先将memory中的数据, 按partition进行划分, 然后各自存成小文件, 这样当buffer不断的spill的时候, 就会产生大量的小文件 所以Hadoop后面直到reduce之前做的所有的事情其实就是不断的merge, 基于文件的多路并归排序, 在map端的将相同part
2014-07-22 10:29:23 916
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人