10-shuffle及优化

大数据捌圆

已于 2022-11-23 23:54:38 修改

阅读量347

点赞数

分类专栏： hadoop面经复习文章标签： mapreduce hadoop 大数据

于 2022-05-17 07:42:05 首次发布

本文链接：https://blog.csdn.net/huaxing_ba/article/details/124812643

版权

hadoop面经复习专栏收录该内容

18 篇文章 0 订阅

订阅专栏

题目：

描述shuffle过程及优化手段

答案：暂时以前两张图为准

在这里插入图片描述

在这里插入图片描述

1.map阶段
（1）增大环形缓冲区大小。由100M扩大到200M
（2）增大环形缓冲区溢写比例。由80%扩大到90%
（3）减少对溢写文件的merge次数。由默认10个文件改为一次merge20个文件
（4）在不影响实际业务的前提下，提前采用Combiner进行合并，减少I/O

2.reduce阶段
（1）合理设置Map和Reduce数：两个都不能设置太少，也不能设置太多。太少，会导致Task等待，延长处理时间；太多，会导致Map、Reduce任务间竞争资源，造成处理超时等错误
（2）设置Map、Reduce共存：调整slowstart.completedmaps参数，使Map运行到一定程度后，Reduce也开始运行，减少Reduce的等待时间
（3）规避使用Reduce，因为Reduce在用于连接数据集的时候将会产生大量的网络消耗
（4）增加每个Reduce去Map中拿数据的并行数
（5）集群性能可以的前提下，增大Reduce段存储数据内存的大小

3.I/O传输
（1）采用数据压缩的方式，减少网络I/O的时间。安装Snappy和LZO压缩编码器
（2）map输入端主要考虑数据量大小和切片，支持切片的有Bzip2、LZO。注意：LZO要想支持切片必须创建索引
（3）map输出端主要考虑速度，速度快的Snappy、LZO
（4）reduce输出端主要看具体需求，例如作为下一个MR输入需要考虑切片，永久保存考虑压缩率比较大的gzip

4.整体
（1）NodeManager默认内存8G，需要根据服务器实际配置灵活调整，例如128G内存，配置为100G内存左右，yarn.nodemanager.resource.memory-mb
（2）单任务默认内存8G，需要根据该任务的数据量灵活调整，例如128M数据，配置1G内存，yarn.scheduler.maximum-allocation-mb
（3）mapreduce.map.memory.mb：控制分配给MapTask内存上限，如果超过会kill掉进程（报：Container is running beyond physical memory limits. Current usage:565MB of 512MB physical memory used; Killing Container）。默认内存大小为1G，如果数据量是128M，正常不需要调整内存；如果数据量大于128M，可以增加MapTask内存，最大可以增加到4-5G
（4）mapreduce.reduce.memory.mb：控制分配给ReduceTask内存上限。默认内存大小为1G，如果数据量是128M，正常不需要调整内存；如果数据量大于128M，可以增加ReduceTask内存大小为4-5G
（5）mapreduce.map.java.opts：控制MapTask堆内存大小。（如果内存不够，报：java.lang.OutOfMemoryError）
（6）mapreduce.reduce.java.opts：控制ReduceTask堆内存大小。（如果内存不够，报：java.lang.OutOfMemoryError）
（7）可以增加MapTask的CPU核数，增加ReduceTask的CPU核数
（8）增加每个Container的CPU核数和内存大小
（9）在hdfs-site.xml文件中配置多目录（多磁盘）
（10）NameNode有一个工作线程池，用来处理不同DataNode的并发心跳以及客户端并发的元数据操作。dfs.namenode.handler.count=20*log2(Cluster Size)，比如集群规模为10台时，此参数设置为60。可通过简单的python代码计算该值，代码如下
在这里插入图片描述