Presto【实践 01】Presto查询性能优化（数据存储+SQL优化+无缝替换Hive表

2401_84239625

于 2024-05-08 03:40:53 发布

阅读量1k

点赞数 9

分类专栏：程序员文章标签： sql hive 数据库

本文链接：https://blog.csdn.net/2401_84239625/article/details/138553502

版权

程序员专栏收录该内容

222 篇文章 3 订阅

订阅专栏

一、网安学习成长路线图

网安所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。
在这里插入图片描述

二、网安视频合集

观看零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。
在这里插入图片描述

三、精品网安学习书籍

当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理解，这些理解是比较独到，可以学到不一样的思路。
在这里插入图片描述

四、网络安全源码合集+工具包

光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。
在这里插入图片描述

五、网络安全面试题

最后就是大家最关心的网络安全面试题板块
在这里插入图片描述

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以点击这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

– NOT GOOD
SELECT field_name_1, field_name_2 FROM table_name GROUP BY type, id;


4. ORDER BY 时使用 LIMIT ：ORDER BY 需要扫描数据到单个 worker 节点进行排序，导致单个worker 需要大量内存。如果是查询 Top N 或者 Bottom N，使用 LIMIT 可减少排序计算和内存压力。

– GOOD
SELECT field_name_1, field_name_2 FROM table_name ORDER BY sort_field_name LIMIT 100;
– NOT GOOD
SELECT field_name_1, field_name_2 FROM table_name ORDER BY sort_field_name;


5. 使用近似聚合函数：Presto 有一些近似聚合函数，对于允许有少量误差的查询场景，使用这些函数对查询性能有大幅提升。比如使用 APPROX\_DISTINCT(x) 函数比 COUNT(DISTINCT x) 有大概 2.3% 的误差。

SELECT APPROX_DISTINCT(field_name) FROM table_name;


6. 用 REGEXP\_LIKE 代替多个 LIKE 语句：Presto 查询优化器没有对多个 LIKE 语句进行优化，使用 REGEXP\_LIKE 对性能有较大提升。

– GOOD
SELECT field_name_1, field_name_2 FROM table_name
WHERE REGEXP_LIKE(field_name, ‘GET|POST|PUT|DELETE’);
– NOT GOOD
SELECT field_name_1, field_name_2 FROM table_name
WHERE
field_name LIKE ‘%GET%’ OR field_name LIKE ‘%POST%’ OR
field_name LIKE ‘%PUT%’ OR field_name LIKE ‘%DELETE%’;


7. 使用 JOIN 语句时将大表放在左边 ：Presto 中 JOIN 的默认算法是 BROADCAST JOIN，即将 JOIN 左边的表分割到多个 worker，然后将 JOIN 右边的表数据整个复制一份发送到每个 worker 进行计算。如果右边的表数据量太大，则可能会报内存溢出错误。

– GOOD
SELECT field_name_1, field_name_2 FROM large_table l JOIN small_table s ON l.id = s.id;
– NOT GOOD
SELECT field_name_1, field_name_2 FROM small_table s JOIN large_table l ON l.id = s.id;


8. 使用 RANK 函数代替 ROW\_NUMBER 函数来获取 Top N：在进行一些分组排序场景时，使用 RANK 函数性能更好。

– GOOD
SELECT checksum(rnk)
FROM (
SELECT RANK() OVER (PARTITION BY l_orderkey, l_partkey ORDER BY l_shipdate DESC) AS rnk
FROM lineitem
) t
WHERE rnk = 1
– NOT GOOD
SELECT checksum(rnk)
FROM (
SELECT ROW_NUMBER() OVER (PARTITION BY l_orderkey, l_partkey ORDER BY l_shipdate DESC) AS rnk
FROM lineitem
) t
WHERE rnk = 1


#### 1.3 无缝替换Hive表


如果之前的hive表没有用到 ORC 和 snappy，那么怎么无缝替换而不影响线上的应用？比如如下一个hive表：

CREATE TABLE bdc_dm.res_category(
channel_id1 int comment ‘1级渠道id’,
province string COMMENT ‘省’,
city string comment ‘市’,
uv int comment ‘uv’
)
comment ‘example’
partitioned by (landing_date int COMMENT ‘日期:yyyymmdd’)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘\t’ COLLECTION ITEMS TERMINATED BY ‘,’ MAP KEYS TERMINATED BY ‘:’ LINES TERMINATED BY ‘\n’;


建立对应的 ORC 表

CREATE TABLE bdc_dm.res_category_orc(
channel_id1 int comment ‘1级渠道id’,
province string COMMENT ‘省’,
city string comment ‘市’,
uv int comment ‘uv’
)
comment ‘example’
partitioned by (landing_date int COMMENT ‘日期:yyyymmdd’)
row format delimited fields terminated by ‘\t’
stored as orc
TBLPROPERTIES (“orc.compress”=“SNAPPY”);


先将数据灌入orc表，然后更换表名

insert overwrite table bdc_dm.res_category_orc partition(landing_date)
select * from bdc_dm.res_category where landing_date >= 20171001;

ALTER TABLE bdc_dm.res_category RENAME TO bdc_dm.res_category_tmp;
ALTER TABLE bdc_dm.res_category_orc RENAME TO bdc_dm.res_category;


其中res\_category\_tmp是一个备份表，若线上运行一段时间后没有出现问题，则可以删除该表。


#### 1.4 注意事项


ORC 和 Parquet 都支持列式存储，但是 ORC 对 Presto 支持更好（Parque t对 Impala 支持更好）  
 对于列式存储而言，存储文件为二进制的，对于经常增删字段的表，建议不要使用列式存储（修改文件元数据代价大）。对比数据仓库，dwd 层建议不要使用 ORC，而 dm 层则建议使用。


### 2.实践


#### 2.1 加快在Presto上的数据统计


很多的时候，在 Presto 上对数据库跨库查询，例如 MySQL 数据库。这个时候 Presto 的做法是从MySQL 数据库端拉取最基本的数据，然后再去做进一步的处理，例如统计等聚合操作。  
 举个例子：

SELECT COUNT(id) FROM table_name WHERE condition_field=1;


上面的SQL语句会分为3个步骤进行：


1. Presto发起到Mysql数据库进行查询

SELECT id FROM table_name WHERE condition_field=1;


2. 对结果进行count计算
3. 返回结果


对于 Presto 来说，其跨库查询的瓶颈是在数据拉取这个步骤。若要提高数据统计的速度，可考虑把 MySQL 中相关的数据表定期转移到 HDFS 中，并转存为高效的列式存储格式 ORC。定时归档是一个很好的选择，这里还要注意，在归档的时候要选择一个归档字段，如果是按日归档，可以用日期作为这个字段的值，采用 yyyyMMdd 的形式，例如20211214。

– 创建归档数据库的SQL语句如下
CREATE TABLE IF NOT EXISTS table_name (
id INTEGER,
…
partition_date INTEGER
) WITH ( format = ‘ORC’, partitioned_by = ARRAY[‘partition_date’] );

– 查看创建的库结构（只适用于 Presto）
SHOW CREATE TABLE table_name;


带有分区的表创建完成之后，每天只要更新分区字段 partition\_date 就可以了，Presto 就能将数据放置到规划好的分区了。如果要查看一个数据表的分区字段是什么，可以下面的语句：

SHOW PARTITIONS FROM table_name;


#### 2.2 分区字段过滤


如果数据被规当到 HDFS 中，并带有分区字段。在每次查询归档表的时候，要带上分区字段作为过滤条件，这样可以加快查询速度。因为有了分区字段作为查询条件，就能帮助 Presto 避免全区扫描，减少 Presto 需要扫描的 HDFS 的文件数。


#### 2.3 使用WITH语句


使用 Presto 分析统计数据时，可考虑把多次查询合并为一次查询，用 Presto 提供的子查询完成。这点和MySQL的使用不是很一样。例如：

– 子查询 subquery_1 注意：多个子查询需要用逗号分隔
WITH