hive中常见参数优化总结_set hive,五年大数据开发开发者小米、阿里面经

本文总结了Hive中的关键参数优化,包括join优化、向量化查询、任务优先级、CBO设置以及reduce相关参数。作者是一位有着丰富经验的大数据开发者,分享了在小米、阿里的面试经历,并提供了一套全面的大数据学习资料,旨在帮助读者提升技能。
摘要由CSDN通过智能技术生成

set hive.auto.convert.join=true;
set hive.mapjoin.smalltable.filesize=50000000;
join时候产生了数据倾斜可以使用以下两个参数指定倾斜的字段名称,设定分桶数量,甚至可以指定倾斜的值
SET hive.skewedjoin.key = id;
SET hive.skewedjoin.num.buckets = 2;
set hive.skewedjoin.value=xxx;
例:
SELECT * FROM table1 JOIN table2 ON table1.id = table2.id;

3.开启向量化查询优化,默认不开启,开启后可以批量读取数据,默认大小是1024条,也可以调整为更大
set hive.vectorized.execution.enabled = true;
set hive.vectorized.execution.reduce.enabled = true;

4.设定任务优先级
SET mapreduce.job.priority=VERY_HIGH;

5.hive自动优化参数设置,
set hive.stats.autogather=false;
set hive.stats.column.autogather=false;
参数用于控制Hive是否自动收集表和分区的统计信息、是否自动收集列的统计信息。统计信息可以帮助Hive的优化器更好地制定查询计划。
false意味着Hive不会自动收集统计信息。你需要手动运行ANALYZE TABLE命令来收集统计信息。
set hive.cbo.enable=false;
当 hive.cbo.enable 设置为 false 时,意味着Hive将不会使用

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值