hivesql常用优化技巧

最新推荐文章于 2023-10-24 18:38:50 发布

小白冲啊

最新推荐文章于 2023-10-24 18:38:50 发布

阅读量2k

点赞数 2

分类专栏：笔记文章标签： hive sql

本文链接：https://blog.csdn.net/weixin_41797985/article/details/113542086

版权

一、列裁剪与分区裁剪

1.列裁剪（只查询需要的字段，千万不要直接写 select * from）
列裁剪就是在查询时只读取需要的列。当列很多或者数据量很大时，如果select所有的列或者不指定分区，导致的全列扫描和全表扫描效率都很低。

2.分区裁剪（有分区条件的一定要加上分区条件【如：dt...】）
分区裁剪就是在查询时只读需要的分区。

二、排序技巧–distribute by 与sort by 配合使用代替 order by

order by：将结果按某个字段全局排序，导致所有map端数据都进入一个reduce中，在数据量大时可能会长时间计算不完。

sort by：会视情况启动多个reducer进行排序，并且保证每个reducer内局部有序。为了控制map端数据分配到reduce的key，往往还要配合distribute by一同使用均匀分配数据。如果不加distribute by的话，map端数据就会随机分配给reducer。

/*
-- 未优化写法（当开启严格模式时，order by 需要与limit一起使用）
select a , b ,c
from table 
where  xxx  
order by a  
limit 10;

*/
-- 优化写法
select a , b ,c
from table 
where  xxx 
distribute by a  
sort by a 
order by a  
limit 10;

三、去重技巧-- 用 group by 代替 distinct

distinct ：放在一台服务器上最后使用一个reduce去执行
group by ：多台服务器一起执行

--  尽量减少对单字段使用distinct去重

/*
-- 未优化
select distinct user_name 
from XXX;
*/

-- 优化后
select user_name 
from XXX
group

最低0.47元/天解锁文章

小白冲啊

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
hivesql常用优化技巧

一、列裁剪与分区裁剪1.列裁剪（只查询需要的字段，千万不要直接写 select * from）列裁剪就是在查询时只读取需要的列。当列很多或者数据量很大时，如果select所有的列或者不指定分区，导致的全列扫描和全表扫描效率都很低。2.分区裁剪（有分区条件的一定要加上分区条件【如：dt...】）分区裁剪就是在查询时只读需要的分区。二、排序技巧–distribute by 与sort by 配合使用代替 order byorder by：将结果按某个字段全局排序，导致所有map端数据都进入一个r
复制链接

扫一扫