mapreduce端的优化

我叫小忍

已于 2022-02-20 16:10:42 修改

阅读量216

点赞数

文章标签： hadoop mapreduce hdfs 大数据

于 2021-01-02 20:32:29 首次发布

本文链接：https://blog.csdn.net/m0_46504700/article/details/112112682

版权

MapReduce优化

（1）合并小文件：在执行mr任务前在HDFS上用appendToFile命令将小文件进行合并，大量的小文件会产生大量的map任务，增大map任务装载次数，而任务的装载比较耗时，从而导致mr运行较慢。
//将1.txt和2.txt合并，并上传到hdfs上
hadoop fs -appendToFile 1.txt 2.txt hdfs://cdh5/tmp/lxw1234.txt
（2）采用CombineTextInputFormat来作为输入，它可将多个小文件从逻辑上规划到一个切片中，多个小文件就可以交给一个maptask解决，解决输入端大量小文件场景。
map阶段
1）减少溢写次数：通过调整io.sort.mb及sort.spill.persent参数值，增大触发spill的内存上限，减少spill次数，从而减少磁盘IO
2)减少合并次数：通过调整io.sort.factor参数，增大merge的文件数目，减少merge的次数，从而缩短mr处理时间
3）在map之后，不影响业务逻辑的前提下，先进行combine处理，减少I/O
Reduce阶段
1）合理设置map和reduce数量：两个都不能设置太少，也不能设置太多。太少，会导致task等待，延长处理时间，太多会导致map、reduce任务间竞争资源，造成处理超时等错误.
2)设置map、reduce共存：调整slowstart.completedmaps参数，使map运行到一定程度后，reduce也开始运行，减少reduce的等待时间。
3）规避使用reduce：因为reduce在用于连接数据集的时候会产生大量的网络消耗。
4）合理设置reduce端的buffer:默认情况下，数据达到一个阈值的时候，buffer中的数据就会写入磁盘，然后reduce会从磁盘中获得所有的数据。也就是说，buffer和reduce是没有直接关联的，中间多个写磁盘->读磁盘的过程，既然有这个弊端，那么就可以通过参数来配置，使得buffer中的一部分数据可以直接输送到reduce，从而减少IO开销：mapred.job.reduce.input.buffer.percent,默认为0.0。当值大于0的时候，会保留指定比例的内存读buffer中的数据直接拿给reduce使用。这样一来，设置buffer需要内存，读取数据需要内存，reduce计算也需要内存，所以要根据作业的运行情况进行调整。
I/O传输
1）采用数据压缩的方式，减少网络IO的时间。安装Snappy和LZO压缩编码器
2）使用sequenceFile二进制文件
参数调优
1）mr中应用程序中配置就可以生效
mapreduce.map.memory.mb:一个map task可使用的资源上限（单位：MB),默认为1024，如果Map Task实际使用的资源量超过该值，则会强制杀死。
2）mapreduce.reduce.memory.mb:一个reduce task可使用的资源上限（单位：MB),默认为1024，如果reduce Task实际使用的资源量超过该值，则会强制杀死。
3)mapreduce.map.cpr.vcoures:每个Map task可使用的最多cpu core 数目，默认值：1
4）mapreduce.reduce.cpu.vcores:每个Reduce task可使用的最多cpu core数目，默认值：1

  yarn-default.xml参数配置
1）yarn.scheduler.minimum-allocation-mb(1024):给应用程 					   			
分配的最小内存
2）yarn.scheduler.maximum-allocation-mb(8192):给应用程序分配的最大内存
3）yarn.scheduler.minimum-allocation-vcores 1:每个container申请的最小CPU核数
4）yarn.scheduler.maximum-allocation-vcores(32):每个container申请的最大CPU核数
5）yarn.nodemanager.resource.memory-mb(8192):给container分配的最大物理内存                           
    
 shuffle性能优化的关键参数，应在yarn启动之前具配置好（mapred-default.xml)      
 mapreduce.task.io.sort.mb(100):shuffle的环形缓冲区大小，默认100m     
 mapreduce.map.sort.spill.persent(0.8):环形缓冲器溢出的阈值默认80%。
 容错参数配置
 mapreduce.map.maxattempts:每个Map Task最大重试次数，一旦重试参数超过该值，则认为Map Task运行失败，默认值：4
 mapreduce.reduce.maxattempts:每个Reduce Task最大重试次数，一旦重试参数超过该值，则认为Reduce Task运行失败，默认值：4
 mapreduce.task.timeout:Task超时时间，经常需要设置的一个参数，该参数表达的意思为：如果一个task在一定时间内没有任何进入，即不会读取新的数据，也没有输出数据，则认为该task处于block状态，可能是卡住了，也许永远会卡主，为了防止因为用户程序永远block住不退出，则强制设置了一个超过该时间，默认是600000毫秒，，如果你的程序对每条输入数据的处理时间过长，建议将该参数调大，该参数过小常出现的错误提示是“AttemptID:attempt_14267829456721_123456_m_000224_0 Timed out after 300 secsContainer killed by the ApplicationMaster.”

我叫小忍

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
mapreduce端的优化

MapReduce优化（1）合并小文件：在执行mr任务前在HDFS上用appendToFile命令将小文件进行合并，大量的小文件会产生大量的map任务，增大map任务装载次数，而任务的装载比较耗时，从而导致mr运行较慢。//将1.txt和2.txt合并，并上传到hdfs上hadoop fs -appendToFile 1.txt 2.txt hdfs://cdh5/tmp/lxw1234.txt（2）采用CombineTextInputFormat来作为输入，它可将多个小文件从逻辑上规划到一个切片
复制链接

扫一扫