MapReduce 调优

最新推荐文章于 2023-02-25 21:14:08 发布

fei2324

最新推荐文章于 2023-02-25 21:14:08 发布

阅读量186

点赞数 1

分类专栏： hadoop

本文链接：https://blog.csdn.net/weixin_39232143/article/details/100100005

版权

hadoop 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

一 MapReduce优化方法主要从六个方面考虑：数据输入、Map阶段、Reduce阶段、IO传输、数据倾斜问题和常用的调优参数。

二数据输入
（1）合并小文件：在执行mr任务前将小文件进行合并，大量的小文件会产生大量的map任务，增大map任务装载次数，而任务的装载比较耗时，从而导致mr运行较慢。
（2）采用CombineTextInputFormat来作为输入，解决输入端大量小文件场景

三 Map阶段
1）减少溢写（spill）次数：通过调整io.sort.mb及sort.spill.percent参数值，增大触发spill的内存上限，减少spill次数，从而减少磁盘IO。
2）减少合并（merge）次数：通过调整io.sort.factor参数，增大merge的文件数目，减少merge的次数，从而缩短mr处理时间。
3）在map之后，不影响业务逻辑前提下，先进行combine处理，减少 I/O。

四 Reduce阶段
1）合理设置map和reduce数：两个都不能设置太少，也不能设置太多。太少，会导致task等待，延长处理时间；太多，会导致 map、reduce任务间竞争资源，造成处理超时等错误。
2）设置map、reduce共存：调整slowstart.completedmaps参数，使map运行到一定程度后，reduce也开始运行，减少reduce的等待时间。
3）规避使用reduce：因为reduce在用于连接数据集的时候将会产生大量的网络消耗。

五压缩：减少网络IO的的时间。安装Snappy和LZO压缩编码器

六数据倾斜

1 hive.map.aggr=true：在map中会做部分聚集操作，效率更高但需要更多的内存。

hive.groupby.skewindata=true：数据倾斜时负载均衡，当选项设定为true，生成的查询计划会有两个MRJob。第一个MRJob 中，Map的输出结果集合会随机分布到Reduce中，每个Reduce做部分聚合操作，并输出结果，这样处理的结果是相同的GroupBy Key有可能被分发到不同的Reduce中，从而达到负载均衡的目的；第二个MRJob再根据预处理的数据结果按照GroupBy Key分布到Reduce中（这个过程可以保证相同的GroupBy Key被分布到同一个Reduce中），最后完成最终的聚合操作。

2、在 key 上面做文章，在 map 阶段将造成倾斜的key 先分成多组，例如 aaa 这个 key,map 时随机在 aaa 后面加上 1,2,3,4 这四个数字之一，把 key 先分成四组，先进行一次运算，之后再恢复 key 进行最终运算。
3、能先进行 group 操作的时候先进行 group 操作，把 key 先进行一次 reduce,之后再进行 count 或者 distinct count 操作。
4、join 操作中，使用 map join 在 map 端就先进行 join ，免得到reduce 时卡住。

fei2324

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MapReduce 调优

一 MapReduce优化方法主要从六个方面考虑：数据输入、Map阶段、Reduce阶段、IO传输、数据倾斜问题和常用的调优参数。二数据输入（1）合并小文件：在执行mr任务前将小文件进行合并，大量的小文件会产生大量的map任务，增大map任务装载次数，而任务的装载比较耗时，从而导致mr运行较慢。（2）采用CombineTextInputFormat来作为输入，解决输入端大量小文件场景...
复制链接

扫一扫