hadoop 排序

最新推荐文章于 2023-12-25 15:57:54 发布

lfz_carlos

最新推荐文章于 2023-12-25 15:57:54 发布

阅读量333

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lfz_carlos/article/details/50852294

版权

排序顺序

默认由RawComparator 控制

if mapred.output.key.comparator.Class 被设置 / JobConf setOutputKeyComparatorClass 方法

使用这个类的实例作为比较器

else 自定义比较器必须继承WritableComparator ，比较对象必须是继承 WritableComparable子类

如果没有自定义的comparator，使用RawComparator进行反序列化，委托给 WritableComparable 子类的 compareTo方法

全局排序

二次排序

Map: Mapper -> [first sort] to generate partition(extends Partitioner<CombinationKey,IntWritable> job.setPartitionerClass(DefinedPartition.class) ) ->

[second sort] for sorting cross-group and in-group data ( job.setSortComparatorClass(DefinedComparator.class) ) ->

shuffle

Reduce: [group] ( { [sort1, 1],[sort1,2] } => [sort1,(1,2)] ) (job.setGroupingComparatorClass(DefinedGroupSort.class)) => reduce

实例参考 http://zengzhaozheng.blog.51cto.com/8219051/1379271

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。