map-reduce程序提升处理效率的方式

这里假设你已经会写简单的map-reduce 程序(本博对应搜索技术分类中我介意的介绍过map-reduce使用方法)


那么同样一个map-reduce程序,输入的数据量大小一样,有什么办法可以加快map部分的计算效率呢?


我先说一下碰到的实际问题: 同样一批日志一天一个目录如2013-12-01,目录下为各小时文件如****00.log......****01.log .....***23.log


每次map-reduce都不快,查看发现启动的map数量个数为24个(一天目录下只有24个文件),后来我们把每小时的一个文件切分成按分钟的60个文件这样一天的目录中就有60*24个文件,再启动map-reduce时我们可以看到map启动的数量为60*24个了,效率明显提升;


所以map的启动依赖于输入的数量而与数据量无关,


谨以此段经历希望能给予你帮助





评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值