2024年最新hive中常见参数优化总结_set hive(1)，全网疯传

2401_84590351

于 2024-05-14 09:09:00 发布

阅读量361

点赞数 4

分类专栏：程序员文章标签：大数据面试学习

本文链接：https://blog.csdn.net/2401_84590351/article/details/138836970

版权

程序员专栏收录该内容

58 篇文章 0 订阅

订阅专栏

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

set hive.skewedjoin.value=xxx;
例：
SELECT * FROM table1 JOIN table2 ON table1.id = table2.id;

3.开启向量化查询优化，默认不开启，开启后可以批量读取数据，默认大小是1024条，也可以调整为更大
set hive.vectorized.execution.enabled = true;
set hive.vectorized.execution.reduce.enabled = true;

4.设定任务优先级
SET mapreduce.job.priority=VERY_HIGH;

5.hive自动优化参数设置，
set hive.stats.autogather=false;
set hive.stats.column.autogather=false;
参数用于控制Hive是否自动收集表和分区的统计信息、是否自动收集列的统计信息。统计信息可以帮助Hive的优化器更好地制定查询计划。
false意味着Hive不会自动收集统计信息。你需要手动运行ANALYZE TABLE命令来收集统计信息。
set hive.cbo.enable=false;
当 hive.cbo.enable 设置为 false 时，意味着Hive将不会使用CBO来优化查询计划。相反，Hive将使用一种称为“规则基础的优化器”（Rule-Based Optimizer，简称RBO）的方法来优化查询。RBO依赖于预定义的规则来重写或转换查询，而不是基于统计信息和成本评估来选择最佳的执行计划。

6.reduce相关优化参数
set hive.exec.reducers.max=9999;一般设置为集群中 Worker 节点数量的 2 到 3 倍。
set hive.exec.reducers.bytes.per.reducer=524288000;默认值是256MB

set hive.shuffle.compress=true;启用shuffle阶段的压缩操作
set hive.map.aggr=true;聚合函数可以应用于 Map 端，减少 Reduce 阶段的数据量和计算量，但对于不支持 Map 端聚合的聚合函数需要关闭。

7.时候的一些优化

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

统化资料的朋友，可以戳这里获取](https://bbs.csdn.net/topics/618545628)**

2401_84590351

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
2024年最新hive中常见参数优化总结_set hive(1)，全网疯传

当 hive.cbo.enable 设置为 false 时，意味着Hive将不会使用CBO来优化查询计划。相反，Hive将使用一种称为“规则基础的优化器”（Rule-Based Optimizer，简称RBO）的方法来优化查询。参数用于控制Hive是否自动收集表和分区的统计信息、是否自动收集列的统计信息。3.开启向量化查询优化，默认不开启，开启后可以批量读取数据，默认大小是1024条，也可以调整为更大。
复制链接

扫一扫