Hadoop优化有哪些方面

最新推荐文章于 2024-06-27 19:55:36 发布

浮云6363

最新推荐文章于 2024-06-27 19:55:36 发布

阅读量1.1k

点赞数 1

分类专栏：大数据相关 # Hadoop

本文链接：https://blog.csdn.net/lz6363/article/details/117405262

版权

94 篇文章 1 订阅

订阅专栏

10 篇文章 0 订阅

订阅专栏

1. 减少HDFS上的小文件的影响

合理设置 Map 和 Reduce 数：两个都不能设置太少，也不能设置太多。太少，会导致 Task 等待，延长处理时间；太多，会导致 Map、Reduce 任务间竞争资源，造成处理超时等错误
设置 Map、Reduce 共存：调整 mapreduce.job.reduce.slowstart.completedmaps参数，使 Map 运行到一定程度后，Reduce 也开始运行，减少 Reduce 的等待时间
规避使用 Reduce，因为 Reduce 在用于连接数据集的时候将会产生大量的网络消耗
增加每个 Reduce 去 Map 中拿数据的并行数
集群性能可以的前提下，增大 Reduce 端存储数据内存的大小

MapTask 默认内存大小为 1G，可以增加 MapTask 内存大小为 4-5g，即mapreduce.map.memory.mb参数
ReduceTask 默认内存大小为 1G，可以增加 ReduceTask 内存大小为 4-5g，即mapreduce.reduce.memory.mb参数
可以增加 MapTask 的 cpu 核数，增加 ReduceTask 的 cpu 核数，即mapreduce.map.cpu.vcores和mapreduce.reduce.cpu.vcores参数
增加每个 Container 的 cpu 核数和内存大小
调整每个 Map Task 和 Reduce Task 最大重试次数，即mapreduce.map.maxattempts和mapreduce.reduce.maxattempts

关注

专栏目录