Hive的优化

hql会转换成MapReduce执行,所以应该从MapReduce的运行角度来优化性能,最要解决的问题是数据倾斜的问题。比如:

  1. 尽量不要使用count(distinct) ,因为此时map端没有去重的操作,可以用嵌套子查询来替代,子表是去重后的表
  2. 尽量使用MapJoin,在Map阶段把小表读入内存,扫描大表完成Join,就没有MapReduce的shuffle过程,也就不存在数据倾斜的问题
  3. 聚合函数尽量与groupby一起执行(此时有combiner)

配置上的优化,比如:

  1. 设置合理的map reduce的task数量
  2. 合并小文件,减少HDFS的压力
  3. 改变默认的存储格式:默认是TextFile格式,这种格式不利于查询,可以使用ORCFile,Parquet等存储格式
  4. 配置Hive的执行引擎ApacheTez(可能会有Bug)

写效率高的hql,比如:

  1. in/exists用半连接(semi join)替代
  2. 插入数据时使用多重插入
  3. 尽量使用子查询不使用关联查询
  4. 避免在 where 子句中使用!=或<>操作符,否则将引擎放弃使用索引而进行全表扫描
  5. 避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描
  6. 字段的前半部分不确定时不要使用模糊查询%、、、
  7. 不写没有意义的查询
  8. 可以用表变量代替临时表
  9. 避免频繁创建和删除临时表
  10. 尽量避免大事务操作,提高系统并发能力
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值