此教程中关于Hive的优化,皆是基于Hive2.x的版本,对于Hive1.x旧版本的优化机制不再复述(新版本已改善或变更)。另外新版本中默认为开启状态的优化配置项,在工作中无需修改,也不再复述。
一、HDFS副本数
- 配置项:dfs.replication ( HDFS)
- 介绍:文件副本数,通常设为3,不推荐修改。

二、CPU配置
-
查看CPU线程数
grep 'processor' /proc/cpuinfo | sort -u | wc -l
-
配置项:yarn.nodemanager.resource.cpu-vcores
-
表示该节点服务器上yarn可以使用的虚拟CPU个数,默认值是8,推荐将值配置与物理CPU线程数相同,如果节点CPU核心不足8个,要调小这个值,yarn不会智能的去检测物理核心数。


三、内存配置
- 配置项:yarn.nodemanager.resource.memory-mb
- 设置该nodemanager节点上可以为容器分配的总内存,默认为8G,如果节点

本文详细介绍了基于Hive2.x的Hadoop集群优化配置,包括HDFS副本数、CPU配置、内存设置、本地目录管理、MapReduce内存调整、HiveServer2堆栈优化、并行编译、动态分区线程数、监听输入文件线程数、Map与Reduce输出压缩、中间数据及最终结果压缩等关键参数。通过这些优化,可以显著提升大数据处理效率和系统性能。
最低0.47元/天 解锁文章
2383

被折叠的 条评论
为什么被折叠?



