mapreduce shuffle分析

最新推荐文章于 2022-03-31 14:33:11 发布

弓永峰

最新推荐文章于 2022-03-31 14:33:11 发布

阅读量773

点赞数

分类专栏： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gyflyx/article/details/31825415

版权

hadoop 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

mapreduce的核心主要是根据map的outputKey进行排序。排序分为内排序和外排序

内排是在堆内排序，主要是buffer在spill到文件中前进行排序，这个排序在map和reduce中都有这部分排序。

外排序是归并排序，是在将由buffer spill到磁盘的许多小文件进行合并时进行的排序，这个排序在map和reduce端都有涉及。

shuffle中的排序是指对map的outputkey和reduce的inputkey进行排序（及只对key进行排序），不对value进行排序。所以我们要写很多的Comparator，或者实现WritableComparator。

在哪些阶段我们需要关心key的比较呢？

1. 使Mapper的outputkey实现WritableComaprable，或者设置Comparator

2. job.setGroupingComparatorClass（）

当然我们也需要关心shuffle阶段的 Partitioner

我们知道MapReduce，有个宏观的模式是 “分区（partioner）===》分组（grouping）”

1. partitioner 我们很清楚

2. 分组grouping 是在reduce部分（还有combiner部分）将key-value对进行分组，即产生key-list<value>对，作为reduce函数的输入

二次排序也是基于上述方法实现的

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
mapreduce shuffle分析

mapreduce的核心主要是根据map的outputKey进行排序。排序分为内排序和外排序
复制链接

扫一扫

专栏目录

弓永峰 CSDN认证博客专家 CSDN认证企业博客

码龄15年

94: 原创

13万+: 周排名

51万+: 总排名

105万+: 访问

: 等级

1万+: 积分

101: 粉丝

60: 获赞

141: 评论

84: 收藏

私信

关注

热门文章

分类专栏

最新评论

oracle 中 cursor 与refcursor及sys_refcursor的区别 (转载)
weixin_39836082: 写的很细腻，获益匪浅
Android:res资源在R.java中不能自动生成ID
VipKenny 回复 Super.帆老师: 。。。。8年前的坟，竟然被挖出来了，你layout文件是不是太长了？拆分一下，include进去。另外id的生成是有规则的，8位16进制数，前两位是包名，中间2~3位是类型，后面是id，项目比较大的建议做组件化拆分
Android:res资源在R.java中不能自动生成ID
Super.帆老师: 有解决了嘛，我也遇到了，天那，要疯
jsp中的java代码中不能直接使用else来处理
tolersii: 呵呵上面正确与错误的区别是什么啊楼主麻烦你告诉下啊
关于Html嵌入Applet的问题
weixin_41741235: APPLET CODE=" HelloApplet.class" ，" HelloApplet.class"多了个空格啊，会导致找不到类

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。