Hadoop优化

最新推荐文章于 2023-07-21 11:55:53 发布

清风千雨

最新推荐文章于 2023-07-21 11:55:53 发布

阅读量473

点赞数

分类专栏： Hadoop

本文链接：https://blog.csdn.net/qq_33598343/article/details/83689723

版权

Hadoop 专栏收录该内容

28 篇文章 0 订阅

订阅专栏

1）mr程序的效率瓶颈

功能：分布式离线计算

->计算机性能
CPU、内存、磁盘、网络

->I/O操作优化
（1）数据倾斜（代码优化）
（2）map和reduce数设置不合理
（3）map运行时间太长，导致reduce等待过久
（4）小文件过多（combineTextInputFomrat小文件合并）
（5）不可分块的超大文件（不断的溢写）
（6）多个溢写小文件需要多次merge

2）mr优化方法

六个方面考虑：数据输入、Map阶段、Reduce阶段、IO传输、数据倾斜、参数调优

1>数据输入
（1）合并小文件：在执行mr任务前就进行小文件合并
（2）采用CombineTextInputFormat来作为输入，解决输入端大量小文件的场景
mr并不适合处理大量小文件

2>Map阶段
（1）减少溢写次数（增加内存200M 80%）

<property>
<name>mapreduce.task.io.sort.mb</name>
<value>100</value>
</property>

<property>
<name>mapreduce.map.sort.spill.percent</name>
<value>0.80</value>
</property>

(2)减少合并次数(设置合并文件数，越大，合并次数越少)

<property>
<name>mapreduce.task.io.sort.factor</name>
<value>10</value>
</property>
（3）在map之后，不影响业务逻辑情况下进行combiner

3>Reduce阶段

（1）合理设置map与reduce个数

（2）设置map/reduce共存
设置运行一定程度的map运行后启动reduce减少等待时间

<property>
<name>mapreduce.job.reduce.slowstart.completedmaps</name>
<value>0.05</value>
</property>

（3）合理设置reduce端的buffer
<property>
<name>mapreduce.reduce.markreset.buffer.percent</name>
<value>0.0</value>
</property>

4>传输

（1）进行数据压缩
（2）使用sequenceFile

5>数据倾斜

（1）进行范围分区
（2）自定义分区
（3）Combine
(4)能用mapjoin坚决不用reduce join

6>参数调优设置核心数

map核心数设置：
<property>
<name>mapreduce.map.cpu.vcores</name>
<value>1</value>
</property>

reduce核心数设置：
<property>
<name>mapreduce.reduce.cpu.vcores</name>
<value>1</value>
</property>

设置内存


maptask内存设置：
<property>
<name>mapreduce.map.memory.mb</name>
<value>1024</value>
</property>

reducetask内存设置：
<property>
<name>mapreduce.reduce.memory.mb</name>
<value>1024</value>
</property>

reduce去map端拿数据并行度
<property>
<name>mapreduce.reduce.shuffle.parallelcopies</name>
<value>5</value>
</property>

JVM重用

避免重复开启jvm,完成一个task接着运行下一个，解压了很多时间

参数：

<property>
        <name>mapreduce.job.jvm.numtasks</name>
        <value>20</value>
</property>

清风千雨

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hadoop优化

1）mr程序的效率瓶颈功能：分布式离线计算-&gt;计算机性能CPU、内存、磁盘、网络-&gt;I/O操作优化（1）数据倾斜（代码优化）（2）map和reduce数设置不合理（3）map运行时间太长，导致reduce等待过久（4）小文件过多（combineTextInputFomrat小文件合并）（5）不可分块的超大文件（不断的溢写）（6）多个溢写小文件需要多次merge2）...
复制链接

扫一扫

专栏目录