Hive调优（简略版）

竹长大大

已于 2022-02-21 17:14:36 修改

阅读量1.5k

点赞数 1

分类专栏： # Hive 文章标签： hive big data 大数据 sql hadoop

于 2022-02-16 17:44:09 首次发布

本文链接：https://blog.csdn.net/qq_17685725/article/details/122968416

版权

本文探讨了Hive分区操作中的问题及其解决方案，通过调整hive.exec.max.dynamic.partitions.pernode、hive.exec.max.dynamic.partitions和hive.exec.max.created.files等配置参数来应对动态分区过多导致的错误。此外，还详细讲解了处理Hive内存溢出的方法，包括正确配置Yarn和MapReduce的内存参数，并在内存紧张时关闭MapJoin。最后，提出了通过分批处理数据和利用分区、分桶采样来提升Hive查询效率的策略。

摘要由CSDN通过智能技术生成

Hive分区

动态分区插入数据时，因为创建的目录较多、文件较多，而导致系统报错，如何处理？

可以通过hive配置，增加动态分区支持的目录数，和创建的文件数。
set hive.exec.max.dynamic.partitions.pernode=10000;
set hive.exec.max.dynamic.partitions=100000;
set hive.exec.max.created.files=150000;

Hive内存溢出

Yarn 内存配置

yarn.nodemanager.resource.memory-mb、yarn.scheduler.maximum-allocation-mb配置的值要保持一致，将主机剩余的可用内存，都划分到这两个配置中。比如系统一共分配了32G内存，系统和程序已经使用了12G内存，剩下20G内存，这两个配置就都配置为20G。
yarn.app.mapreduce.am.command-opts（JVM内存）的值也要同步修改为略小的值，格式：-Xmx1024m。

MR内存配置