hadoop shuffle 学习

hadoop的核心就是shuffle,最好的学习方式就是看源代码
但是编译hadoop的源代码成本太大,而且由于maven中的有些资源被天草屏蔽的关系,不推荐。
建立一个项目,引用最简单的wordcount, 将jar包attach到源代码上,再用远程调试就ok了。


打开mapreduce的调试端口
<property>
<name>mapred.child.java.opts</name>
<value>-Xmx200m -Xdebug -Xrunjdwp:transport=dt_socket,address=50051,server=y,suspend=y</value>
</property>

修改spill的参数 默认100
<name>mapreduce.task.io.sort.mb</name>
<value>1</value>

mapreduce的info日志
/usr/hadoop/hadoop-2.2.0/logs/userlogs

[b]map端的shuffle [/b]

collect阶段
mapreduce.task.io.sort.mb 默认100(MB)
每次Mapper中context.write(word, one); 都会调用correct方法,将数据放到buffer中,
当buffer 超过了0.8*100MB=80MB 时会触发sortAndSpill方法,将buffer中的数据spill到磁盘,文件大小为40MB
如果设置了combiner的话,spill时会调用reduce的合并代码减少临时文件的输出14MB(可能)
可以用一个2MB的文件来做测试, 将mb调成1

merge阶段
mapreduce.task.io.sort.factor 默认 10
从spill的磁盘文件中进行[color=red][b]多路归并排序[/b][/color],默认是10个一组
如果设置了combiner的话,也会进行一次combine


MapTask
1573行 是spill输出的文件
1820行 是merge的输出文件
可以用strings 命令看看输出的内容

注意
如果没有combiner的话, shuffle-Map端的输出还是
a 1
a 1
b 1
的形式, 不是
a 2
b 1

如果只有一个文件并且设置了combiner的话, 就不需要reduce端了。


[b]reduce的shuffle端[/b]
就是各种merge
内存merge,磁盘merge, final merge


参考
http://www.wnt.com.cn/html/news/tophome/top_xytd/top_xytd_jswz/bbs_service/20130711/111140562.html
http://blog.csdn.net/mrtitan/article/details/8711366
http://langyu.iteye.com/blog/1171091
http://zhangjie.me/eclipse-debug-hadoop/
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值