调整reduce个数

最新推荐文章于 2025-03-20 20:06:18 发布

原创最新推荐文章于 2025-03-20 20:06:18 发布

· 672 阅读

·

0

·

版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#mr #数据库开发 #大数据

ArgoDB 专栏收录该内容

17 篇文章

订阅专栏

1．调整reduce个数方法一
（1）每个Reduce处理的数据量默认是256MB
hive.exec.reducers.bytes.per.reducer=256000000

（2）每个任务最大的reduce数，默认为1009
hive.exec.reducers.max=1009

（3）计算reducer数的公式
N=min(参数2，总输入数据量/参数1)

2．调整reduce个数方法二
在hadoop的mapred-default.xml文件中修改
设置每个job的Reduce个数
set mapreduce.job.reduces = 15;

3．reduce个数并不是越多越好
1）过多的启动和初始化reduce也会消耗时间和资源；
2）另外，有多少个reduce，就会有多少个输出文件，如果生成了很多个小文件，那么如果这些小文件作为下一个任务的输入，则也会出现小文件过多的问题；
在设置reduce个数的时候也需要考虑这两个原则：处理大数据量利用合适的reduce数；使单个reduce任务处理数据量大小要合适；

博客等级

码龄18年

29
原创

50
点赞

73
收藏

39
粉丝

关注

私信

热门文章

分类专栏

python 2篇
日常经验 2篇
银行监管报送 2篇
ArgoDB 17篇
ORACLE 4篇

展开全部收起

上一篇：: TDH计算引擎针对数据倾斜现象的保护机制

下一篇：: 数据倾斜时如何应对--倾斜key单独处理/MapJoin/SkewJoin的原理及使用方法

最新评论

ArgoDB Holodesk表格式对应的小文件合并
CSDN-Ada助手: 不知道 MySQL入门技能树是否可以帮到你：https://edu.csdn.net/skill/mysql?utm_source=AI_act_mysql
ArgoDB初见
CSDN-Ada助手: 恭喜您写了第9篇博客！看到您对ArgoDB的初次见面，我感到非常兴奋。您的持续创作展现了您对技术的热爱和专注。希望您在接下来的创作中可以深入挖掘ArgoDB的特点和应用场景，为读者带来更多有价值的内容。加油！
Beeline 命令行连接 ArgoDB
CSDN-Ada助手: 恭喜您写了第10篇博客！标题“Beeline 命令行连接 ArgoDB”听起来非常有趣。您对于如何使用Beeline命令行连接ArgoDB进行数据库操作的分享一定会对读者非常有帮助。接下来，我建议您可以考虑在下一篇博客中探讨一些高级主题，比如如何优化查询性能或者如何处理大数据集。当然，这只是个建议，您的每一篇博客都非常值得期待。继续保持创作，并一如既往地分享您的知识，我们都会受益匪浅！
如何计算Task数量来充分利用上CPU
CSDN-Ada助手: 恭喜您写了第11篇博客！您的文章总能给我们带来新的启发和思考。对于如何计算Task数量来充分利用上CPU的讨论，我觉得您可以进一步探讨如何在实际应用中应用这些计算方法，以及如何根据不同的情况来调整Task数量。希望您可以继续分享您的经验和见解，期待您的下一篇文章！
MR框架工作流程以及框架限制
CSDN-Ada助手: 恭喜您写了这么精彩的一篇博客！对MR框架工作流程和限制有了更深入的了解，让我受益匪浅。希望您能继续分享更多相关的知识，也许可以深入探讨一些案例分析或者实际应用，让读者更加具体地了解MR框架的实际运用。期待您的下一篇作品！

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。