Presto【实践 01】Presto查询性能优化（数据存储+SQL优化+无缝替换Hive表(2)

本文链接：https://blog.csdn.net/2401_84239625/article/details/138553498

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

-- GOOD 
SELECT field_name_1, field_name_2 FROM large_table l JOIN small_table s ON l.id = s.id;
-- NOT GOOD
SELECT field_name_1, field_name_2 FROM small_table s JOIN large_table l ON l.id = s.id;

使用 RANK 函数代替 ROW_NUMBER 函数来获取 Top N：在进行一些分组排序场景时，使用 RANK 函数性能更好。

-- GOOD 
SELECT checksum(rnk)
FROM (
  SELECT RANK() OVER (PARTITION BY l_orderkey, l_partkey ORDER BY l_shipdate DESC) AS rnk
  FROM lineitem
) t
WHERE rnk = 1
-- NOT GOOD
SELECT checksum(rnk)
FROM (
  SELECT ROW_NUMBER() OVER (PARTITION BY l_orderkey, l_partkey ORDER BY l_shipdate DESC) AS rnk
  FROM lineitem
) t
WHERE rnk = 1

1.3 无缝替换Hive表

如果之前的hive表没有用到 ORC 和 snappy，那么怎么无缝替换而不影响线上的应用？比如如下一个hive表：

CREATE TABLE bdc_dm.res_category(
channel_id1 int comment '1级渠道id',
province string COMMENT '省',
city string comment '市', 
uv int comment 'uv'
)
comment 'example'
partitioned by (landing_date int COMMENT '日期:yyyymmdd')
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' COLLECTION ITEMS TERMINATED BY ',' MAP KEYS TERMINATED BY ':' LINES TERMINATED BY '\n';

建立对应的 ORC 表

CREATE TABLE bdc_dm.res_category_orc(
channel_id1 int comment '1级渠道id',
province string COMMENT '省',
city string comment '市', 
uv int comment 'uv'
)
comment 'example'
partitioned by (landing_date int COMMENT '日期:yyyymmdd')
row format delimited fields terminated by '\t'
stored as orc 
TBLPROPERTIES ("orc.compress"="SNAPPY");

先将数据灌入orc表，然后更换表名

insert overwrite table bdc_dm.res_category_orc partition(landing_date)
select \* from bdc_dm.res_category where landing_date >= 20171001;

ALTER TABLE bdc_dm.res_category RENAME TO bdc_dm.res_category_tmp;
ALTER TABLE bdc_dm.res_category_orc RENAME TO bdc_dm.res_category;

其中res_category_tmp是一个备份表，若线上运行一段时间后没有出现问题，则可以删除该表。

1.4 注意事项

ORC 和 Parquet 都支持列式存储，但是 ORC 对 Presto 支持更好（Parque t对 Impala 支持更好）
对于列式存储而言，存储文件为二进制的，对于经常增删字段的表，建议不要使用列式存储（修改文件元数据代价大）。对比数据仓库，dwd 层建议不要使用 ORC，而 dm 层则建议使用。

2.实践

2.1 加快在Presto上的数据统计

很多的时候，在 Presto 上对数据库跨库查询，例如 MySQL 数据库。这个时候 Presto 的做法是从MySQL 数据库端拉取最基本的数据，然后再去做进一步的处理，例如统计等聚合操作。
举个例子：

SELECT COUNT(id) FROM table_name WHERE condition_field=1;

上面的SQL语句会分为3个步骤进行：

Presto发起到Mysql数据库进行查询

SELECT id FROM table_name WHERE condition_field=1;

对结果进行count计算
返回结果

对于 Presto 来说，其跨库查询的瓶颈是在数据拉取这个步骤。若要提高数据统计的速度，可考虑把 MySQL 中相关的数据表定期转移到 HDFS 中，并转存为高效的列式存储格式 ORC。定时归档是一个很好的选择，这里还要注意，在归档的时候要选择一个归档字段，如果是按日归档，可以用日期作为这个字段的值，采用 yyyyMMdd 的形式，例如20211214。

-- 创建归档数据库的SQL语句如下
CREATE TABLE IF NOT EXISTS table_name (
id INTEGER,
........
partition_date INTEGER
) WITH ( format = 'ORC', partitioned_by = ARRAY['partition\_date'] );

-- 查看创建的库结构（只适用于 Presto）
SHOW CREATE TABLE table_name;

带有分区的表创建完成之后，每天只要更新分区字段 partition_date 就可以了，Presto 就能将数据放置到规划好的分区了。如果要查看一个数据表的分区字段是什么，可以下面的语句：

SHOW PARTITIONS FROM table_name;

2.2 分区字段过滤

如果数据被规当到 HDFS 中，并带有分区字段。在每次查询归档表的时候，要带上分区字段作为过滤条件，这样可以加快查询速度。因为有了分区字段作为查询条件，就能帮助 Presto 避免全区扫描，减少 Presto 需要扫描的 HDFS 的文件数。

2.3 使用WITH语句

使用 Presto 分析统计数据时，可考虑把多次查询合并为一次查询，用 Presto 提供的子查询完成。这点和MySQL的使用不是很一样。例如：

-- 子查询 subquery\_1 注意：多个子查询需要用逗号分隔
WITH 
subquery_1 AS (
    SELECT a1, a2, a3 
    FROM Table_a 
    WHERE a3 between 20180101 and 20180131
),      
-- 最后一个子查询后不要带逗号 
subquery_2 AS (
    SELECT b1, b2, b3
    FROM Table_b
    WHERE b3 between 20180101 and 20180131
)
SELECT subquery_1.a1, subquery_1.a2, subquery_2.b1, subquery_2.b2
FROM subquery_1 JOIN subquery_2 ON subquery_1.a3 = subquery_2.b3;

2.4 减少读表次数

具体做法是，将使用频繁的表作为一个子查询抽离出来，避免多次 read。

2.5 字段名引用

Presto 中的字段名引用使用双引号分割（跟 GreenPlum 一样），这个要区别于MySQL的反引号`。

SELECT field_name AS "fieldName" FROM table_name;

2.6 时间函数

对于 timestamp，需要进行比较的时候，需要添加 timestamp 关键字，而 MySQL 中对 timestamp 可以直接进行比较。

-- MySQL的写法
SELECT time_field  FROM table_name WHERE time_field > '2017-01-01 00:00:00'; 


**先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7**

**深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！**

**因此收集整理了一份《2024年最新网络安全全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。**
![img](https://img-blog.csdnimg.cn/img_convert/a748475c130f8edbc874c0627946235d.png)
![img](https://img-blog.csdnimg.cn/img_convert/fe3c1135998c3efcad306ca5646f00f4.png)
![img](https://img-blog.csdnimg.cn/img_convert/c6a4ca6adb37f507a2a671a4a7fb254f.png)
![img](https://img-blog.csdnimg.cn/img_convert/c8b28b79b4a98ce0a410a974f9f32be1.png)
![img](https://img-blog.csdnimg.cn/img_convert/ae5b2f125ba39295a4de6a9afbd83a11.png)
![img](https://img-blog.csdnimg.cn/img_convert/4b453c4e727aabab5ff410c6cc5400bb.png)

**既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上网络安全知识点，真正体系化！**

**由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新**

**[需要这份系统化资料的朋友，可以点击这里获取](https://bbs.csdn.net/topics/618540462)**

0nXSFrF-1715110811802)]

**既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上网络安全知识点，真正体系化！**

**由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新**

**[需要这份系统化资料的朋友，可以点击这里获取](https://bbs.csdn.net/topics/618540462)**