hadoop优化

最新推荐文章于 2024-09-11 22:16:31 发布

Ronin_man

最新推荐文章于 2024-09-11 22:16:31 发布

阅读量126

点赞数

文章标签： hadoop 大数据 mapreduce java

本文链接：https://blog.csdn.net/a987271725/article/details/108027853

版权

Hadoop优化

1.MapReduce跑的慢的原因

MapReduce程序效率的瓶颈在于两点:

1.1 计算机性能

cup 、内存、磁盘健康、网络

1.1 I/O操作优化

(1)数据倾斜

(2)Map和Reduce数据设置不合理

(3)Map运行时间太长,导致Reduce等待过久

(4)小文件过多

(5)大量的不可切片的超大压缩文件

(6)Spill次数过多

(7)Merge次数过多等

2.MapReduce优化方法

MapReduce优化方法主要从六个方面考虑：数据输入、Map阶段、Reduce阶段、IO传输、数据倾斜问题和常用的调优参数。

2.1 数据输入

(1) 合并小文件:在执行MR任务前将小文件进行合并,大量的小文件会产生大量的MapTask,增大MapTask装载次数,而任务的装载比较耗时,从而导致MR运行环境变慢.

(2) 采用CombinerTextInPutFormat来作为输入,解决输入端大量小文件的情况

2.2 Map阶段

(1) 减少溢写次数:通过调整mapreduce.task.io.sort.mb及mapreduce.task.io.sort.spill.percent参数值.增大触发Spill的内存上限,减少Spill次数,从而减少磁盘IO.

(2)减少合并次数:通过调整mapreduce.task.io.sort.factor参数,增大合并文件数目,减少合并的次数,从而缩短MR处理时间

(3)在Map之后,在不影响业务逻辑的前提下,进行Combiner处理,减少IO.

2.3 Reduce

（1）合理设置Map和Reduce数：两个都不能设置太少，也不能设置太多。太少，会导致Task等待，延长处理时间；太多，会导致Map、Reduce任务间竞争资源，造成处理超时等错误。

（2）设置Map、Reduce共存：
调整mapreduce.job.reduce.slowstart.completedmaps参数，使Map运行到一定程度后，Reduce也开始运行，减少Reduce的等待时间。

（3）规避使用Reduce：因为Reduce在用于连接数据集的时候将会产生大量的网络消耗。

（4）合理设置Reduce端的Buffer：默认情况下，数据达到一个阈值的时候，Buffer中的数据就会写入磁盘，然后Reduce会从磁盘中获得所有的数据。也就是说，Buffer和Reduce是没有直接关联的，中间多次写磁盘->读磁盘的过程，既然有这个弊端，那么就可以通过参数来配置，使得Buffer中的一部分数据可以直接输送到Reduce，从而减少IO开销：mapreduce.reduce.input.buffer.percent，默认为0.0。当值大于0的时候，会保留指定比例的内存读Buffer中的数据直接拿给Reduce使用。这样一来，设置Buffer需要内存，读取数据需要内存，Reduce计算也要内存，所以要根据作业的运行情况进行调整。

2.4 I/O传输

采用数据压缩的方式，减少网络IO的的时间。安装Snappy和LZO压缩编码器。

2.5 数据倾斜问题

1 .数据倾斜现象:

数据频率倾斜——某一个区域的数据量要远远大于其他区域。

数据大小倾斜——部分记录的大小远远大于平均值。

2．减少数据倾斜的方法

方法1：抽样和范围分区

可以通过对原始数据进行抽样得到的结果集来预设分区边界值。

方法2：自定义分区

基于输出键的背景知识进行自定义分区。例如，如果Map输出键的单词来源于一本书。且其中某几个专业词汇较多。那么就可以自定义分区将这这些专业词汇发送给固定的一部分Reduce实例。而将其他的都发送给剩余的Reduce实例。

方法3：Combiner

使用Combiner可以大量地减小数据倾斜。在可能的情况下，Combine的目的就是聚合并精简数据。

方法4：采用Map Join，尽量避免Reduce Join。

3.Hadoop小文件优化方法

3.1Hadoop小文件弊端

HDFS上每个文件都要在NameNode上创建对应的元数据，这个元数据的大小约为150byte，这样当小文件比较多的时候，就会产生很多的元数据文件，一方面会大量占用NameNode的内存空间，另一方面就是元数据文件过多，使得寻址索引速度变慢。

小文件过多，在进行MR计算时，会生成过多切片，需要启动过多的MapTask。每个MapTask处理的数据量小，导致MapTask的处理时间比启动时间还小，白白消耗资源。

3.2 Hadoop小文件解决方案

小文件优化的方向：

（1）在数据采集的时候，就将小文件或小批数据合成大文件再上传HDFS。

（2）在业务处理之前，在HDFS上使用MapReduce程序对小文件进行合并。

（3）在MapReduce处理时，可采用CombineTextInputFormat提高效率。

（4）开启uber模式，实现jvm重用

Hadoop Archive

是一个高效的将小文件放入HDFS块中的文件存档工具，能够将多个小文件打包成一个HAR文件，从而达到减少NameNode的内存使用

SequenceFile

SequenceFile是由一系列的二进制k/v组成，如果为key为文件名，value为文件内容，可将大批小文件合并成一个大文件

CombineTextInputFormat

CombineTextInputFormat用于将多个小文件在切片过程中生成一个单独的切片或者少量的切片。

开启uber模式，实现jvm重用。默认情况下，每个Task任务都需要启动一个jvm来运行，如果Task任务计算的数据量很小，我们可以让同一个Job的多个Task运行在一个Jvm中，不必为每个Task都开启一个Jvm.

开启uber模式，在mapred-site.xml中添加如下配置

<!--  开启uber模式 -->
<property>
  <name>mapreduce.job.ubertask.enable</name>
  <value>true</value>
</property>

<!-- uber模式中最大的mapTask数量，可向下修改  --> 
<property>
  <name>mapreduce.job.ubertask.maxmaps</name>
  <value>9</value>
</property>
<!-- uber模式中最大的reduce数量，可向下修改 -->
<property>
  <name>mapreduce.job.ubertask.maxreduces</name>
  <value>1</value>
</property>
<!-- uber模式中最大的输入数据量，默认使用dfs.blocksize 的值，可向下修改 -->
<property>
  <name>mapreduce.job.ubertask.maxbytes</name>
  <value></value>
</property>