Hadoop优化

最新推荐文章于 2024-01-18 23:38:08 发布

温俭峰

最新推荐文章于 2024-01-18 23:38:08 发布

阅读量108

点赞数

文章标签： hadoop mapreduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38416469/article/details/103558481

版权

https://www.cnblogs.com/felixzh/p/8604188.html

1)数据输入小文件处理

（1）合并小文件，对小文件进行归档(har)，自定义inputforma将小文件存储成squenceFile文件。

（2）采用ConbineFileInputFormat来作为输入，解决输入端大量小文件场景。

（3）对于大量小文件job，可以开启JVM重用。

2)map阶段

（1）增大环形缓冲区大小。由100M扩大到200M。

（2）增大缓冲区溢写的比例。由80%扩大到90%

（3）减少对溢写文件的，merge次数。

（4）不影响实际业务的前提下，采用combiner提前合并，减少I/O。

2)reduce阶段

（1）合理设置map和reduce数，两个都不能设置太少，也不能设置太多。太少，会导致task等待，延长处理实际；太多，会导致map，reduce任务间竞争资源，造成处理超时等错误。

（2）设置map，reduce共存，调整slowstart.completedmaps参数，使map运行到一定程度后，reduce也开始运行，减少reduce的等待时间。

（3）规避使用reduce，因为reduce在用于连接数据集的时候将会产生大量的网络消耗。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop优化

1)数据输入小文件处理（1）合并小文件，对小文件进行归档(har)，自定义inputforma将小文件存储成squenceFile文件。（2）采用ConbineFileInputFormat来作为输入，解决输入端大量小文件场景。（3）对于大量小文件job，可以开启JVM重用。2)map阶段（1）增大环形缓冲区大小。由100M扩大到200M。（2）增大缓冲区溢写的比例。由80%扩大到90...
复制链接

扫一扫

博客等级

码龄7年

7
原创

0
点赞

1
收藏

0
粉丝

关注

私信

热门文章

最新评论

特征工程构建
CSDN-Ada助手: 非常感谢博主分享关于“特征工程构建”的博客，我觉得这是一个非常实用的话题，特征工程在机器学习中起着至关重要的作用。如果你感兴趣的话，可以写一篇关于“特征选择方法”的博客，介绍各种特征选择方法的优缺点以及在实际应用中的使用情况。相信这样的技术文章对其他用户也会非常有帮助，期待你的下一篇精彩内容。为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
数据仓库分层
ctotalk: good.

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。