HiveSQL优化技巧

最新推荐文章于 2022-06-03 08:43:50 发布

XSTARK51416

最新推荐文章于 2022-06-03 08:43:50 发布

阅读量230

点赞数

文章标签： hive

本文链接：https://blog.csdn.net/qq_37936002/article/details/106389276

版权

技巧1：用group by替换distinct。
原有写法：

SELECT distinct user_name
FROM user_trade
WHERE dt>'0';

优化写法：

SELECT user_name
FROM user_trade
WHERE dt>'0'
GROUP BY user_name;

使用group by可以看到运行时间减少许多。
注意：在极大的数据量（较多重复值）时，可以先group by去重，再count（）计数效率高于直接count（distinct **）。

技巧2：利用窗口函数grouping sets，cube，rollup。
1.grouping sets：在group by查询中，根据不同的维度组合进行聚合，等价于将不同维度的group by结果集进行union all。聚合规则在括号中进行指定。
示例：想知道用户的性别分布，城市分布，等级分布，该怎么写。
通常写法：

--性别分布-
SELECT sex,       
       count(distinct user_id) 
FROM user_info 
GROUP BY sex;
--城市分布-
SELECT city,
       count(distinct user_id) 
FROM user_info 
GROUP BY city;
--等级分布-
SELECT level,
       count(distinct user_id) 
FROM user_info 
GROUP BY level;

这种写法要分别写三次SQL，重复工作且费时
优化写法：

SELECT sex,
       city,
       level,
       count(distinct user_id)
FROM user_info
GROUP BY sex,city,level
GROUPING SETS(sex,city,level);

注意：聚合结果均在同一列，分类字段用不同列来进行区分。

求用户的性别分布以及每个性别的城市分布：

SELECT sex,
       city,
       count(distinct user_id) 
FROM user_info 
GROUP BY sex,city 
GROUPING SETS (sex,(sex,city));

2.cube
根据group by 维度的所有组合进行聚合
示例：
性别，城市，等级的各种组合的用户分布
普通写法：

SELECT sex,
       city,
       level,       
       count(distinct user_id) 
FROM user_info 
GROUP BY sex,city,level 
GROUPING SETS (sex,city,level,(sex,city),(sex,level), (city,level),(sex,city,level));

优化写法：

SELECT sex,
       city,       
       level,       
       count(distinct user_id) 
FROM user_info 
GROUP BY sex,city,level 
with cube;

3.rollup
以左侧的维度为主，进行层级聚合，是cube的子集。
计算出每个月的支付金额和每年的总支付金额
普通写法：

SELECT a.dt,
       sum(a.year_amount),
       sum(a.month_amount)
FROM       
       (SELECT substr(dt,1,4) as dt,
               sum(pay_amount) year_amount,             
               0 as month_amount      
        FROM user_trade      
        WHERE dt>'0'      
        GROUP BY  substr(dt,1,4)      
        UNION ALL       
        SELECT substr(dt,1,7) as dt,             
               0 as year_amount,             
               sum(pay_amount) as month_amount
        FROM user_trade      
        WHERE dt>'0'      
        GROUP BY  substr(dt,1,7))a 
GROUP BY a.dt;

优化写法：

SELECT year(dt) as year，
       month(dt) as month,       
       sum(pay_amount) 
FROM user_trade 
WHERE dt>'0' 
GROUP BY year(dt),
         month(dt) 
with rollup;

技巧3：换个思路解题
能达到同一种效果的SQL语句有很多，要学会思路转化，灵活运用。
求在2017年和2018年都购买的用户：
写法一：

SELECT a.user_name   
FROM       
      (SELECT distinct user_name      
      FROM user_trade      
      WHERE year(dt)=2017)a    
     JOIN      
      (SELECT distinct user_name      
      FROM user_trade      
      WHERE year(dt)=2018)b on a.user_name=b.user_name;

写法二：

SELECT a.user_name 
FROM     
      (SELECT user_name,
              count(distinct year(dt)) as year_num    
       FROM user_trade    
       WHERE year(dt) in (2017,2018)    
       GROUP BY user_name)a 
WHERE a.year_num=2

写法三：

SELECT user_name,
       count(distinct year(dt)) as year_num 
FROM user_trade 
WHERE year(dt) in (2017,2018) 
GROUP BY user_name 
having count(distinct year(dt))=2

技巧4：union all时可以开启并发执行。
参数设置：set hive.exec.parallel=true
可以并行的任务较多时，开启并发执行，可以提高执行效率。

技巧5：利用lateral view进行行转列

示例：每个品类的购买用户数。

SELECT b.category,       
       count(distinct a.user_name) 
FROM user_goods_category a 
lateral view explode(split(category_detail,',')) b as category GROUP BY b.category;

拓展：
列转行函数：concat_ws(’,’,collect_set(column))

技巧6：表连接优化
1.小表在前，大表在后
Hive假定查询中后的一个表是大表，它会将其它表缓存起来，然后扫描后那个表。
2.使用相同的连接键
当对3个或者更多个表进行join连接时，如果每个on子句都使用相同的连接键的话，那么只会产生一个MapReduce job。
3.尽早的过滤数据
减少每个阶段的数据量，对于分区表要加分区，同时只选择需要使用到的字段。
4.逻辑过于复杂时，引入中间表。

技巧7：如何解决数据倾斜
数据倾斜的表现：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成。因为其处理的数据量和其他 reduce差异过大。
数据倾斜解决办法：
1.空值产生的数据倾斜
解决：如果两个表连接时，使用的连接条件有很多空值，建议在连接条件中增加过滤
例如：on a.user_id=b.user_id and a.user_id is not null
2.大小表连接(其中一张表很大，另一张表非常小)
解决：将小表放到内存里，在map端做Join
3.两个表连接条件的字段数据类型不一致
解决：将连接条件的字段数据类型转换成一致的
例如：on a.user_id=cast(b.user_id as string)