map-reduce程序提升处理效率的方式

最新推荐文章于 2021-04-22 16:46:01 发布

timegoesby_001

最新推荐文章于 2021-04-22 16:46:01 发布

阅读量919

点赞数

分类专栏：搜索技术大数据处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cloudusers/article/details/17056297

版权

搜索技术同时被 2 个专栏收录

26 篇文章 0 订阅

订阅专栏

大数据处理

18 篇文章 0 订阅

订阅专栏

这里假设你已经会写简单的map-reduce 程序（本博对应搜索技术分类中我介意的介绍过map-reduce使用方法）

那么同样一个map-reduce程序，输入的数据量大小一样，有什么办法可以加快map部分的计算效率呢？

我先说一下碰到的实际问题：同样一批日志一天一个目录如2013-12-01,目录下为各小时文件如****00.log......****01.log .....***23.log

每次map-reduce都不快，查看发现启动的map数量个数为24个（一天目录下只有24个文件），后来我们把每小时的一个文件切分成按分钟的60个文件这样一天的目录中就有60*24个文件，再启动map-reduce时我们可以看到map启动的数量为60*24个了，效率明显提升；

所以map的启动依赖于输入的数量而与数据量无关，

谨以此段经历希望能给予你帮助

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。