MapReduce学习笔记之Reduce任务（四）

最新推荐文章于 2024-06-20 08:04:37 发布

影夜life

最新推荐文章于 2024-06-20 08:04:37 发布

阅读量7.3k

点赞数 2

分类专栏： hadoop 文章标签： hadoop mapreduce

本文链接：https://blog.csdn.net/u013980127/article/details/52807360

版权

1. Reduce任务

Reduce任务是一个数据聚合的步骤。数量默认为1，而使用过多的Reduce任务则意味着复杂的shuffle，并使输出文件的数量激增。mapreduce.job.reduces属性设置reduce数量，也可以通过编程的方式，调用Job对象的setNumReduceTasks()方法来设置。一个节点Reduce任务数量上限由mapreduce.tasktracker.reduce.tasks.maximum设置（默认2）。

可以采用以下探试法来决定Reduce任务的合理数量：

# 每个reducer都可以在Map任务完成后立即执行
0.95 * (节点数量 * mapreduce.tasktracker.reduce.tasks.maximum)

另一个方法是

# 较快的节点在完成第一个Reduce任务后，马上执行第二个
1.75 * (节点数量 * mapreduce.tasktracker

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

影夜life

关注关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
MapReduce学习笔记之Reduce任务（四）

1. Reduce任务Reduce任务是一个数据聚合的步骤。数量默认为1，而使用过多的Reduce任务则意味着复杂的shuffle，并使输出文件的数量激增。mapreduce.job.reduces属性设置reduce数量，也可以通过编程的方式，调用Job对象的setNumReduceTasks()方法来设置。一个节点Reduce任务数量上限由mapreduce.tasktracker.reduce
复制链接

扫一扫