Hadoop学习日记（十二）——MapReduce自定义分组的实现

最新推荐文章于 2022-11-18 20:43:16 发布

WorkAsBryant

最新推荐文章于 2022-11-18 20:43:16 发布

阅读量232

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/WorkAsBryant/article/details/94566636

版权

Hadoop学习日记（十二）

2019.07.03

主题：MapReduce自定义分组的实现

学习过程主要参考段海涛大数据p34

1.自定义分组机制

MapReduce进行分组是根据一个继承Partitioner类的具体实现类来定义的，一般是默认有一个HashPartitioner类。如果要自定义自己的分组机制，自然就需要自定义一个自己的继承Partitioner类的具体实现类（例如MyPartitioner类），在MyPartitioner类里定义自己想要实现的分组机制，最后在Runner类里指定分组机制为自定义分组机制。

job.setPartitioner(MyPartitioner.class);

2.自定义reducer task的任务并发数

job.setNumReduceTasks(num);

reduce的任务并发数应该和分组的数量保持一致。

如果任务并发数大于分组的数量，则多的那几个任务拿不到数据，输出为空，不会报错。

如果任务并发数小于分组的数量，会报错，错误提示为Illegal partition for xxxx。

需要注意的是如果设置为1是可以的，因为如果本身不设置任务并发数，只设置分组机制，默认是1个reduce task。

总结来说，要么是1个reduce task，要么有大于等于分组数的reduce task。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Hadoop学习日记（十二）——MapReduce自定义分组的实现

Hadoop学习日记（十二）2019.07.03主题：MapReduce自定义分组的实现学习过程主要参考段海涛大数据p341.自定义分组机制MapReduce进行分组是根据一个继承Partitioner类的具体实现类来定义的，一般是默认有一个HashPartitioner类。如果要自定义自己的分组机制，自然就需要自定义一个自己的继承Partitioner类的具体实现类（例如My...
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。