关于mr的一些问题

最新推荐文章于 2020-10-26 19:51:05 发布

醉吟空尘

最新推荐文章于 2020-10-26 19:51:05 发布

阅读量1.1k

点赞数

文章标签： mr

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42795601/article/details/85011252

版权

本文深入探讨了影响MapReduce中map和reduce任务生成数量的因素，包括数据因子、配置参数等。同时，分析了MapReduce执行速度慢的原因，如JobTracker单点故障、资源管理限制等。此外，针对内存溢出（OOM）问题，提出了内存参数调整的建议。最后，讨论了数据倾斜问题的分类、原因及解决方案，包括增加JVM内存、调整reduce数量、自定义分区和使用Combiner等策略。

摘要由CSDN通过智能技术生成

1.影响map和reduce生成个数的数据因子有哪些？
map个数的影响因子
1）map输入文件的总大小
2）block块大小
block块越大，块数越少，会降低hdfs元数据压力，并行度降低，处理单个block块的效率越高。
block块越小，块数越多，会导致hdfs压力大，并行度会提高。
3）文件大小
与block越接近越好，若太小，会导致所占block元数据过多，给NameNode造成压力。
4）格式
若可切分，尽量接近blocksize大小即可，大了也无所谓。
若不可切分，则尽量保证文件大小一定要小于blocksize。
5）max.split.size参数
map的个数最终取决于split的个数，在原生的mapreduce中，一个split对应一个block，在hive中，受max.split.size影响，该参数默认值往往是1-3个blocksize的大小。
reduce个数由什么决定？
1）自动推测
推测结果的确定时机：任务开始运行之前。
在原生mapreduce中，reduce如果有，则只会产生一个。
在hive中，reduce的个数计算规则是由map端的输入总大小（字节为单位）/ hive.exec.reducers.bytes.per.reducer(hadoop2.7.x版本中默认是64M)
2)自定义设置
map

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

醉吟空尘 CSDN认证博客专家 CSDN认证企业博客

码龄6年

7: 原创

155万+: 周排名

129万+: 总排名

2468: 访问

: 等级

89: 积分

0: 粉丝

1: 获赞

0: 评论

1: 收藏

私信

关注

热门文章

最新评论

关于mr的一些问题
leon_zhangwy: 最大切片大小设置2到3倍块大小的好处是什么？切片不还是取两者最小值（块大小）来决定切片数吗

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。