Hive优化配置等汇总

1.大小表join(数据倾斜,包括笛卡尔积)优化,小表写在前面(小表大表谁在前区别不大),0.7版本前需要在sql中写/+mapjoin(small_tablename)/,之后版本 set hive.auto.convert.join=true; 即可自动转换,写不写/+mapjoin(small_tablename)/没有区别。

脚本开头写:

set hive.auto.convert.join=true;

set hive.mapjoin.smalltable.filesize=25000000; – 小于25mb为小表

2.Hive除了支持MapReduce计算引擎,还支持Spark和Tez这两种分布式计算引擎。据我观察,跑HQL时,CPU使用率很高,而内存使用率很低(不到30%),可以将一些HQL脚本改为Spark计算引擎。

脚本开头写:

set hive.execution.engine=spark;

3.如果要实现in/exists/like in等,用左半连接替代,效率会有极大提升,但是条件只能写在on后,select where后都不能有关于右表的条件。

LEFT SEMI JOIN

4.在hue中可以使用impala/hive等编辑器,impala与hive的sql基本一致,且impala比hive快很多,若想快速进行交互式数据分析建议用impala。impala与hive区别见下:

4.1展示分区时,impala显示信息更多,包括表大小等;

show partitions xx;

4.2 impala中on可以只有不对等条件,hive不行;

4.3 hive插入数据与表字段类型不一致可隐形转换,impala不行;

4.4 impala中不可以写set配置,hive可以。

5.在hue中使用hive编辑器时,可以配置参数,速度会快很多。

set hive.auto.convert.join=true;

set hive.execution.engine=spark;

用完后不要忘记换回mr,不然会一直占用资源:

set hive.execution.engine=mr;

6.判断数据倾斜:

大量相同的key被分配到一个reduce里,造成一个reduce任务累死,其他reduce闲死。查看进度,长时间停留在99%或100%,只有少量reduce子任务未完成。

7.如有需要,使用sum/count/max/min等UDAF或自定义函数,使表在map端汇总合并优化,减少数据倾斜情况。

8.目前我们使用的是Hive 2.1.1,如果后续升级到2.3(最好3.0)后,可以使用物化视图对一些中间表进行优化。

9.配置汇总:

每个配置参数都要搞清楚什么意思,不要单纯的复制粘贴,也不要投鼠忌器,什么都不加,要根据SQL和表情况选择合适的配置。

set hive.mapred.mode=nonstrict; – 如果为严格,将禁止三种类型的查询,自行百度。

set hive.exec.dynamic.partition=true; – 是否打开动态分区

set hive.exec.dynamic.partition.mode=nonstrict; – 打开动态分区后,使用不严格模式

set hive.auto.convert.join=true; – 是否开启自动转换

set hive.mapjoin.smalltable.filesize=25000000; – 小于25mb 为小表

set hive.exec.parallel=true; – 是否开启并发提交

set hive.execution.engine=spark; – 设置计算引擎为spark,默认mr

– set mapreduce.job.priority=high; – 设置mr job的优先级

– set hive.auto.convert.join=false; – 与下面配套使用

– set hive.ignore.mapjoin.hint=false; – 是否忽略mapjoin hint,当关闭自动转换时手写

– set hive.cli.print.current.db=true; – cli print 显示当前库 命令行里用的,跟脚本无关

更多内容见:https://www.cnblogs.com/swordfall/p/11037539.html

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

光于前裕于后

您的打赏将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值