这里假设你已经会写简单的map-reduce 程序(本博对应搜索技术分类中我介意的介绍过map-reduce使用方法)
那么同样一个map-reduce程序,输入的数据量大小一样,有什么办法可以加快map部分的计算效率呢?
我先说一下碰到的实际问题: 同样一批日志一天一个目录如2013-12-01,目录下为各小时文件如****00.log......****01.log .....***23.log
每次map-reduce都不快,查看发现启动的map数量个数为24个(一天目录下只有24个文件),后来我们把每小时的一个文件切分成按分钟的60个文件这样一天的目录中就有60*24个文件,再启动map-reduce时我们可以看到map启动的数量为60*24个了,效率明显提升;
所以map的启动依赖于输入的数量而与数据量无关,
谨以此段经历希望能给予你帮助