Hive优化

1.map side join:
将小表进行缓存,这样子就可以有效的减少MapReduce的数量从而提高计算效率。要求小表需要放在join的左 侧。默认缓存的内存大小是25M
2.多表join与where同时出现
当进行多表的join操作的时候,如果出现了where查询,那么需要先利用子查询进行条件查询然后再进行join,这么做的目的是为了减少中间产生的数据量和计算量
3.group by
在group by过程中可能会产生数据倾斜,所以需要开启Hive来解决数据倾斜问题 -set hive.groupby.skewindata = true;自动的将过程拆分为2个MapReduce来执行,其中第一个阶段负责数据的均衡,第二个阶段才负责数据的最后聚合
4.count distinct优化:
优化前:select count(distinct id )from tablename
Reduce - 既要去重还要计数 - 只要出现聚合函数,强制只能使用一个ReduceTask来执行
优化后:select count(*) from (select distinct id from tablename)tmp;
这种方式的优势在于子查询中可以设置多个ReduceTask来提高性能,后期再利用一个ReduceTask来进行聚合
5.字段的数量与切片的大小关系
会根据每一行字段的数量来调整切片的大小
6.JVM重用:
在MapReduce中,默认每执行一个MapTask或者ReduceTask就开启一次JVM子进程,这个过程中伴随着JVM子进程的大量的创建和销毁,所以就考虑JVM重用
7.指定严格模式:
a.严禁使用笛卡尔积查询
b.分区表的查询必须添加分区
8.关闭推测执行机制:因为实际生产环境中,数据倾斜出现的概率更大,所以会关闭推测执行机制

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值