hive中的优化,只涉及参数

本文详细介绍了Hive的七大性能优化策略,包括大小表join、group by优化、小文件合并、合理设置reduce个数、增加map数、并行执行及JVM重用,通过调整相关参数实现Hive查询效率提升。
摘要由CSDN通过智能技术生成

目录

一、大小表join

二、group by的优化

三、小文件进行合并

四、设置合理的reduce个数

五.让复杂文件增加map数

六、并行执行

七、JVM重用


一、大小表join

开启MapJoin参数设置

(1)设置自动选择Mapjoin

set hive.auto.convert.join = true; 默认为true

(2)大表小表的阈值设置(默认25M一下认为是小表)

set hive.mapjoin.smalltable.filesize=25000000;

(3)小表在前 left join 大表在后;

二、group by的优化

并不是所有的聚合操作都需要在Reduce端完成,很多聚合操作都可以先在Map端进行部分聚合,最后在Reduce端得出最终结果。

开启Map端聚合参数设置

(1)是否在Map端进行聚合,默认为True

set hive.map.aggr = true

(2)在Map端进行聚合操作的条目数目

set hive.groupby.mapaggr.checkinterval = 100000

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值