【通用编程】HQL优化技巧

最新推荐文章于 2023-07-20 10:47:55 发布

孟知之

最新推荐文章于 2023-07-20 10:47:55 发布

阅读量978

点赞数

分类专栏：通用编程文章标签： sql 数据库 sql优化 hql

本文链接：https://blog.csdn.net/weixin_42526352/article/details/120657095

版权

通用编程专栏收录该内容

13 篇文章 0 订阅

订阅专栏

文章目录

hql优化技巧能分为两部分：数据倾斜和语句优化。

1. 数据倾斜

数据倾斜其实就是一个数据热点问题，大量的数据集中到下游的某些task上，导致每个task处理的数据量和数据时间有很大差别。

1.1 join操作导致的数据倾斜

join操作导致数据倾斜的原因是Join on的Key分布不均匀。
优化方法：
1）如果b是个小表，并且没有超过512MB，可以将语句优化为mapjoin。
2）将倾斜的key用单独的逻辑来处理，假设两边的key中有大量的Null数据导致了倾斜，则需要在join前先过滤null或者补上随机数，再进行join；假设关联字段数据类型存在数字与字符串，则需要将数字key转换成字符串，再进行join。

1.2 group by倾斜

group by倾斜的原因是group by的key分布不均匀
优化方法：
1）设置负载均衡参数，set odps.sql.groupby.skewindata=true，查询计划会生成两个MR。
2）理解数据分布，然后两阶段聚合（局部聚合+全局聚合）

数据倾斜原因：
数据倾斜其实就是一个数据热点问题，大量的数据集中到下游的某些task上，导致每个task处理的数据量和数据时间有很大差别。
（1）业务数据本身的特性，key分布不均匀;
（2）主外键有空值
（3）主外键有不同的数据类型
（4）某些SQL语句本身就有数据倾斜;

2. sql语句优化：

2.1 谓词下推

条件表达式下推到数据源或者靠近数据源的部分，通过尽早过滤掉数据，减少每个阶段的数据量,同时对于分区表要加分区，同时只选择需要使用到的字段。

2.2 窗口函数优化

（1）每个窗口函数会生成1个reduce作业，如果窗口函数较多，会消耗过多的资源。您可以对符合下述条件的窗口函数进行优化：
（2）窗口函数在OVER关键字后面要完全相同，要有相同的分组和排序条件。
（3）多个窗口函数在同一层SQL中执行。

2.3 子查询优化

用in的子查询，当数据超过1000行可以用join代替。

2.4 join 语句的优化

（1）主表的分区限制条件可以写在WHERE子句中（最好先用子查询过滤）。
（2）主表的WHERE子句建议写在SQL语句最后。
（3）从表分区限制条件不要写在WHERE子句中，建议写在ON条件或者子查询中。
（4）大表对大表：尽量减少数据集，可以通过分区表，避免扫描全表或者全字段，有效地减小数据集将大表拆分成子表；
大表对小表：设置自动识别小表，将小表放入内存中去执行。一般行数小于2000行，使用mapjoin。