MapReduce调优总结

一、调优的目的

充分的利用机器的性能,更快的完成mr程序的计算任务。甚至是在有限的机器条件下,能够支持运行足够多的mr程序。

二、调优的总体概述

从mr程序的内部运行机制,我们可以了解到一个mr程序由mapper和reducer两个阶段组成,
其中mapper阶段包括:
(1)数据的读取、
(2)map处理以及写出操作(排序和合并/sort&merge),

而reducer阶段包含:
(1)对mapper端输出数据的获取、
(2)数据合并(sort&merge)、
(3)reduce处理以及写出操作。

那么在这七个子阶段中,能够进行较大力度的进行调优的就是 map端的输出、reducer端的数据合并以及reducer的个数这三个方面的调优操作。

也就是说虽然性能调优包括cpu、内存、磁盘io以及网络这四个大方面,但是从mr程序的执行流程中,我们可以知道主要有调优的是内存、磁盘io以及网络。在mr程序中调优,主要考虑的就是减少网络传输和减少磁盘IO操作,故本次课程的mr调优主要包括服务器调优、代码调优、mapper调优、reducer调优以及runner调优这五个方面。

三、我们可以设置一些配置文件中的参数来实现部分调优功能。

mapreduce调优
1. mapreduce.task.io.sort.factor —>mr程序进行合并排序的时候,打开的文件数量,默认为10个.
2. mapreduce.task.io.sort.mb —> mr程序进行合并排序操作的时候或者mapper写数据的时候,内存大小,默认100M
3. mapreduce.map.sort.spill.percent —> mr程序进行flush操作的阀值,默认0.80。
4. mapreduce.reduce.shuffle.parallelcopies —>mr程序reducer copy数据的线程数,默认5。
5. mapreduce.reduce.shuffle.input.buffer.percent —>reduce复制map数据的时候指定的内存堆大小百分比,默认为0.70,适当的增加该值可以减少map数据的磁盘溢出,能够提高系统能。
6. mapreduce.reduce.shuffle.merge.percent —>reduce进行shuffle的时候,用于启动合并输出和磁盘溢写的过程的阀值,默认为0.66。如果允许,适当增大其比例能够减少磁盘溢写次数,提
高系统性能。同mapreduce.reduce.shuffle.input.buffer.percent一起使用。
7. mapreduce.task.timeout —>mr程序的task执行情况汇报过期时间,默认600000(10分钟),设置为0表示不进行该值的判断。

Uber模式也是一种优化:
1、概念:Uber模式是Hadoop2.0中实现的一种针对MR小作业的优化机制。
即如果作业足够小,则所有task在一个jvm(mrappmaster)中完成要比为每个task启动一个container更划算。

2.下面是该机制的相关参数,这些参数均为客户端配置。
在hadoop2.X版本中新增加了Uber模式运行MR
Hadoop中对Uber模式的定义:
1:mapreduce.job.ubertask.enable=true,首先开启Uber模式,默认是false
2:mapreduce.job.ubertask.maxmaps map任务数的阀值 9
mapreduce.job.ubertask.maxreduces reduce任务数的阀值 1
map的数量<=9, reduce<=1
3:所有的输入文件的总长度<=默认的块的大小(128M)
4:mapreduce.map.memory.mb(默认是1024)<=内存需求(内存需求的大小由yarn.app.mapreduce.am.resource.mb来决定,默认1536M)
5:cpu<=yarn.app.mapreduce.am.resource.cpu-vcores(默认1)
6:采用非链式方式运行MR
Uber模式优点:
针对多个小作业,开启uber模式,mapreduce会将所有的task任务放在一个JVM中完成,就需要每个task都去申请资源,启动一个Container容器,
而是多个task申请一份资源,资源会重复的利用,这样的话可以节省cpu及网络Io,磁盘Io的消耗,节省了job运行的时间。

四、代码调优

代码调优,主要是mapper和reducer中,针对多次创建的对象,进行代码提出操作。这个和一般的java程序的代码调优一样。

五、mapper调优

mapper调优主要就是就一个目标:减少输出量。我们可以通过增加combine阶段以及对输出进行压缩设置进行mapper调优。
1.combine介绍:
实现自定义combine要求继承reducer类,特点:
以map的输出key/value键值对作为输入输出键值对,作用是减少网络输出,在map节点上就合并一部分数据。
适用场景,map的输出是数值型的,方便进行统计。
2.压缩设置:
在提交job的时候分别设置启动压缩和指定压缩方式。mapreduce.map.output.compress—>设置是否启动map输出的压缩机制,默认为false。在需要减少网络传输的时候,可以设置为true。

六、reducer调优

reducer调优主要是通过参数调优和设置reducer的个数来完成。
reducer个数调优:
要求:一个reducer和多个reducer的执行结果一致,不能因为多个reducer导致执行结果异常。
规则:一般要求在hadoop集群中的执行mr程序,map执行完成100%后,尽量早的看到reducer执行到33%,可以通过命令hadoop job -status job_id或者web页面来查看。
原因: map的执行process数是通过inputformat返回recordread来定义的;而reducer是有三部分构成的,分别为读取mapper输出数据、合并所有输出数据以及reduce处理,其中第一步要
依赖map的执行,所以在数据量比较大的情况下,一个reducer无法满足性能要求的情况下,我们可以通过调高reducer的个数来解决该问题。
优点:充分利用集群的优势。
缺点:有些mr程序没法利用多reducer的优点,比如获取top n的mr程序。

七、runner调优

runner调优其实就是在提交job的时候设置job参数,一般都可以通过代码和xml文件两种方式进行设置。
1~8详见ActiveUserRunner(before和configure方法),9详解TransformerBaseRunner(initScans方法)

  1. mapred.child.java.opts: 修改childyard进程执行的jvm参数,针对map和reducer均有效,默认:-Xmx200m
  2. mapreduce.map.java.opts: 需改map阶段的childyard进程执行jvm参数,默认为空,当为空的时候,使用mapred.child.java.opts。
  3. mapreduce.reduce.java.opts:修改reducer阶段的childyard进程执行jvm参数,默认为空,当为空的时候,使用mapred.child.java.opts。
  4. mapreduce.job.reduces —> 修改reducer的个数,默认为1。可以通过job.setNumReduceTasks方法来进行更改。
  5. mapreduce.map.speculative:是否启动map阶段的推测执行,默认为true。其实一般情况设置为false比较好。可通过方法job.setMapSpeculativeExecution来设置。
  6. mapreduce.reduce.speculative:是否需要启动reduce阶段的推测执行,默认为true,其实一般情况设置为fase比较好。可通过方法job.setReduceSpeculativeExecution来设置。
  7. mapreduce.map.output.compress —>设置是否启动map输出的压缩机制,默认为false。在需要减少网络传输的时候,可以设置为true。
  8. mapreduce.map.output.compress.codec —>设置map输出压缩机制,默认为org.apache.hadoop.io.compress.DefaultCodec,推荐使用SnappyCodec(在之前版本中需要进行安装操作,
    现在版本不太清楚,安装参数:http://www.cnblogs.com/chengxin1982/p/3862309.html)
    9. hbase参数设置
    由于hbase默认是一条一条数据拿取的,在mapper节点上执行的时候是每处理一条数据后就从hbase中获取下一条数据,通过设置cache值可以一次获取多条数据,减少网络数据传输。
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
对于Hive on Spark的调优,有几个关键的配置可以考虑。首先,可以通过调整hive.auto.convert.join.noconditionaltask.size来控制将基础join转化为map join的阈值,从而影响性能。这个配置在Hive on MapReduce和Hive on Spark中都可以使用,但是两者的解释略有不同。 其次,可以通过设置一些Spark相关的配置来进行调优。例如,可以设置hive.execution.engine为spark来指定使用Spark作为执行引擎。还可以设置spark.executor.memory、spark.executor.cores、spark.executor.instances来调整Spark执行器的内存和核心资源分配。另外,设置spark.serializer为org.apache.spark.serializer.KryoSerializer可以改进序列化的性能。 此外,Hive on Spark相比于Hive on MapReduce有更好的性能,并且提供了相同的功能。用户的SQL不需要进行修改,就可以直接在Hive on Spark上运行。同时,UDF函数也被全部支持。 总结起来,在运行于YARN模式下的Hive on Spark的调优,可以关注以下几点: 1. 调整hive.auto.convert.join.noconditionaltask.size来控制基础join转化为map join的阈值。 2. 设置相关Spark配置,如hive.execution.engine、spark.executor.memory、spark.executor.cores、spark.executor.instances等,来优化资源分配和序列化性能。 3. 充分利用Hive on Spark的性能优势,无需修改SQL即可运行,并支持全部UDF函数。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [hive on spark 调优](https://blog.csdn.net/weixin_45489441/article/details/123252215)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* [Hive on Spark调优](https://blog.csdn.net/javastart/article/details/126041883)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值