hivesql常用优化技巧

一、列裁剪与分区裁剪
1.列裁剪(只查询需要的字段,千万不要直接写 select * from)
列裁剪就是在查询时只读取需要的列。当列很多或者数据量很大时,如果select所有的列或者不指定分区,导致的全列扫描和全表扫描效率都很低。

2.分区裁剪(有分区条件的一定要加上分区条件【如:dt...】)
分区裁剪就是在查询时只读需要的分区。
二、排序技巧–distribute by 与sort by 配合使用代替 order by

order by:将结果按某个字段全局排序,导致所有map端数据都进入一个reduce中,在数据量大时可能会长时间计算不完。

sort by:会视情况启动多个reducer进行排序,并且保证每个reducer内局部有序。为了控制map端数据分配到reduce的key,往往还要配合distribute by一同使用均匀分配数据。如果不加distribute by的话,map端数据就会随机分配给reducer。

/*
-- 未优化写法(当开启严格模式时,order by 需要与limit一起使用)
select a , b ,c
from table 
where  xxx  
order by a  
limit 10;

*/
-- 优化写法
select a , b ,c
from table 
where  xxx 
distribute by a  
sort by a 
order by a  
limit 10;
三、去重技巧-- 用 group by 代替 distinct

distinct :放在一台服务器上最后使用一个reduce去执行
group by :多台服务器一起执行

--  尽量减少对单字段使用distinct去重

/*
-- 未优化
select distinct user_name 
from XXX;
*/

-- 优化后
select user_name 
from XXX
group 
  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值