mapreduce 性能优化，通过inputSplit分片size控制map数目

最新推荐文章于 2023-03-29 08:07:36 发布

weixin_34290352

最新推荐文章于 2023-03-29 08:07:36 发布

阅读量118

点赞数

文章标签：大数据

原文链接：https://my.oschina.net/u/2293326/blog/799490

版权

2019独角兽企业重金招聘Python工程师标准>>>

推荐参考资料：

https://my.oschina.net/u/1451042/blog/352810

http://www.cnblogs.com/ihongyan/p/4855256.html

map task 个数严重影响mr的性能。网上很多资料，讲解了原理和方法，我这里不再敖述。我总结了两种修改方法，希望对大家有帮助。

方法1：修改 hdfs 的blocksize，这种方法很不可取，需要重新启动集群。关键是以前的数据依然保持者以前blocksize的大小，新数据才会是新的blocksize的大小。比如以前是128M，修改为512M。以前的数据没变化，blocksize依然是128M。

方法二：推荐方法。代码中设置，最灵活，根据不同需求，设置不一样的值。设置 mapred.min.split.size 的大小代码中添加FileInputFormat.setMinInputSplitSize，单位是字节，如我的代码：

            job.setMapOutputValueClass(IntWritable.class);
           job.setNumReduceTasks(1);
           //设置最小分片为512M
           FileInputFormat.setMinInputSplitSize(job, 1024*1024*512);
           FileInputFormat.addInputPath(job, new Path("/usr/keyword/input"));

补充说明：

TextInputFormat.setMinInputSplitSize(job,1024L);//设置最小分片大小
TextInputFormat.setMaxInputSplitSize(job,1024×1024×10L);//设置最大分片大小

转载于:https://my.oschina.net/u/2293326/blog/799490