Presto【实践 01】Presto查询性能优化(数据存储+SQL优化+无缝替换Hive表

还有兄弟不知道网络安全面试可以提前刷题吗?费时一周整理的160+网络安全面试题,金九银十,做网络安全面试里的显眼包!

王岚嵚工程师面试题(附答案),只能帮兄弟们到这儿了!如果你能答对70%,找一个安全工作,问题不大。

对于有1-3年工作经验,想要跳槽的朋友来说,也是很好的温习资料!

【完整版领取方式在文末!!】

93道网络安全面试题

内容实在太多,不一一截图了

黑客学习资源推荐

最后给大家分享一份全套的网络安全学习资料,给那些想学习 网络安全的小伙伴们一点帮助!

对于从来没有接触过网络安全的同学,我们帮你准备了详细的学习成长路线图。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。

😝朋友们如果有需要的话,可以联系领取~

1️⃣零基础入门
① 学习路线

对于从来没有接触过网络安全的同学,我们帮你准备了详细的学习成长路线图。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。

image

② 路线对应学习视频

同时每个成长路线对应的板块都有配套的视频提供:

image-20231025112050764

2️⃣视频配套工具&国内外网安书籍、文档
① 工具

② 视频

image1

③ 书籍

image2

资源较为敏感,未展示全面,需要的最下面获取

在这里插入图片描述在这里插入图片描述

② 简历模板

在这里插入图片描述

因篇幅有限,资料较为敏感仅展示部分资料,添加上方即可获取👆

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以点击这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

WHERE REGEXP_LIKE(field_name, ‘GET|POST|PUT|DELETE’);
– NOT GOOD
SELECT field_name_1, field_name_2 FROM table_name
WHERE
field_name LIKE ‘%GET%’ OR field_name LIKE ‘%POST%’ OR
field_name LIKE ‘%PUT%’ OR field_name LIKE ‘%DELETE%’;


7. 使用 JOIN 语句时将大表放在左边 :Presto 中 JOIN 的默认算法是 BROADCAST JOIN,即将 JOIN 左边的表分割到多个 worker,然后将 JOIN 右边的表数据整个复制一份发送到每个 worker 进行计算。如果右边的表数据量太大,则可能会报内存溢出错误。



– GOOD
SELECT field_name_1, field_name_2 FROM large_table l JOIN small_table s ON l.id = s.id;
– NOT GOOD
SELECT field_name_1, field_name_2 FROM small_table s JOIN large_table l ON l.id = s.id;


8. 使用 RANK 函数代替 ROW\_NUMBER 函数来获取 Top N:在进行一些分组排序场景时,使用 RANK 函数性能更好。



– GOOD
SELECT checksum(rnk)
FROM (
SELECT RANK() OVER (PARTITION BY l_orderkey, l_partkey ORDER BY l_shipdate DESC) AS rnk
FROM lineitem
) t
WHERE rnk = 1
– NOT GOOD
SELECT checksum(rnk)
FROM (
SELECT ROW_NUMBER() OVER (PARTITION BY l_orderkey, l_partkey ORDER BY l_shipdate DESC) AS rnk
FROM lineitem
) t
WHERE rnk = 1


#### 1.3 无缝替换Hive表


如果之前的hive表没有用到 ORC 和 snappy,那么怎么无缝替换而不影响线上的应用?比如如下一个hive表:



CREATE TABLE bdc_dm.res_category(
channel_id1 int comment ‘1级渠道id’,
province string COMMENT ‘省’,
city string comment ‘市’,
uv int comment ‘uv’
)
comment ‘example’
partitioned by (landing_date int COMMENT ‘日期:yyyymmdd’)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘\t’ COLLECTION ITEMS TERMINATED BY ‘,’ MAP KEYS TERMINATED BY ‘:’ LINES TERMINATED BY ‘\n’;


建立对应的 ORC 表



CREATE TABLE bdc_dm.res_category_orc(
channel_id1 int comment ‘1级渠道id’,
province string COMMENT ‘省’,
city string comment ‘市’,
uv int comment ‘uv’
)
comment ‘example’
partitioned by (landing_date int COMMENT ‘日期:yyyymmdd’)
row format delimited fields terminated by ‘\t’
stored as orc
TBLPROPERTIES (“orc.compress”=“SNAPPY”);


先将数据灌入orc表,然后更换表名



insert overwrite table bdc_dm.res_category_orc partition(landing_date)
select * from bdc_dm.res_category where landing_date >= 20171001;

ALTER TABLE bdc_dm.res_category RENAME TO bdc_dm.res_category_tmp;
ALTER TABLE bdc_dm.res_category_orc RENAME TO bdc_dm.res_category;


其中res\_category\_tmp是一个备份表,若线上运行一段时间后没有出现问题,则可以删除该表。


#### 1.4 注意事项


ORC 和 Parquet 都支持列式存储,但是 ORC 对 Presto 支持更好(Parque t对 Impala 支持更好)  
 对于列式存储而言,存储文件为二进制的,对于经常增删字段的表,建议不要使用列式存储(修改文件元数据代价大)。对比数据仓库,dwd 层建议不要使用 ORC,而 dm 层则建议使用。


### 2.实践


#### 2.1 加快在Presto上的数据统计


很多的时候,在 Presto 上对数据库跨库查询,例如 MySQL 数据库。这个时候 Presto 的做法是从MySQL 数据库端拉取最基本的数据,然后再去做进一步的处理,例如统计等聚合操作。  
 举个例子:



SELECT COUNT(id) FROM table_name WHERE condition_field=1;


上面的SQL语句会分为3个步骤进行:


1. Presto发起到Mysql数据库进行查询



SELECT id FROM table_name WHERE condition_field=1;


2. 对结果进行count计算
3. 返回结果


对于 Presto 来说,其跨库查询的瓶颈是在数据拉取这个步骤。若要提高数据统计的速度,可考虑把 MySQL 中相关的数据表定期转移到 HDFS 中,并转存为高效的列式存储格式 ORC。定时归档是一个很好的选择,这里还要注意,在归档的时候要选择一个归档字段,如果是按日归档,可以用日期作为这个字段的值,采用 yyyyMMdd 的形式,例如20211214。



– 创建归档数据库的SQL语句如下
CREATE TABLE IF NOT EXISTS table_name (
id INTEGER,

partition_date INTEGER
) WITH ( format = ‘ORC’, partitioned_by = ARRAY[‘partition_date’] );

– 查看创建的库结构(只适用于 Presto)
SHOW CREATE TABLE table_name;


带有分区的表创建完成之后,每天只要更新分区字段 partition\_date 就可以了,Presto 就能将数据放置到规划好的分区了。如果要查看一个数据表的分区字段是什么,可以下面的语句:



SHOW PARTITIONS FROM table_name;


#### 2.2 分区字段过滤


如果数据被规当到 HDFS 中,并带有分区字段。在每次查询归档表的时候,要带上分区字段作为过滤条件,这样可以加快查询速度。因为有了分区字段作为查询条件,就能帮助 Presto 避免全区扫描,减少 Presto 需要扫描的 HDFS 的文件数。


#### 2.3 使用WITH语句


使用 Presto 分析统计数据时,可考虑把多次查询合并为一次查询,用 Presto 提供的子查询完成。这点和MySQL的使用不是很一样。例如:



– 子查询 subquery_1 注意:多个子查询需要用逗号分隔
WITH
subquery_1 AS (
SELECT a1, a2, a3
FROM Table_a
WHERE a3 between 20180101 and 20180131
),
– 最后一个子查询后不要带逗号
subquery_2 AS (
SELECT b1, b2, b3
FROM Table_b
WHERE b3 between 20180101 and 20180131
)
SELECT subquery_1.a1, subquery_1.a2, subquery_2.b1, subquery_2.b2
FROM subquery_1 JOIN subquery_2 ON subquery_1.a3 = subquery_2.b3;


#### 2.4 减少读表次数


具体做法是,将使用频繁的表作为一个子查询抽离出来,避免多次 read。


#### 2.5 字段名引用


Presto 中的字段名引用使用双引号分割(跟 GreenPlum 一样),这个要区别于MySQL的反引号`。



SELECT field_name AS “fieldName” FROM table_name;




还有兄弟不知道网络安全面试可以提前刷题吗?费时一周整理的160+网络安全面试题,金九银十,做网络安全面试里的显眼包!


王岚嵚工程师面试题(附答案),只能帮兄弟们到这儿了!如果你能答对70%,找一个安全工作,问题不大。


对于有1-3年工作经验,想要跳槽的朋友来说,也是很好的温习资料!


【完整版领取方式在文末!!】


***93道网络安全面试题***


![](https://img-blog.csdnimg.cn/img_convert/6679c89ccd849f9504c48bb02882ef8d.png)








![](https://img-blog.csdnimg.cn/img_convert/07ce1a919614bde78921fb2f8ddf0c2f.png)





![](https://img-blog.csdnimg.cn/img_convert/44238619c3ba2d672b5b8dc4a529b01d.png)





内容实在太多,不一一截图了


### 黑客学习资源推荐


最后给大家分享一份全套的网络安全学习资料,给那些想学习 网络安全的小伙伴们一点帮助!


对于从来没有接触过网络安全的同学,我们帮你准备了详细的学习成长路线图。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。

#### 1️⃣零基础入门


##### ① 学习路线


对于从来没有接触过网络安全的同学,我们帮你准备了详细的**学习成长路线图**。可以说是**最科学最系统的学习路线**,大家跟着这个大的方向学习准没问题。


![image](https://img-blog.csdnimg.cn/img_convert/acb3c4714e29498573a58a3c79c775da.gif#pic_center)


##### ② 路线对应学习视频


同时每个成长路线对应的板块都有配套的视频提供:


![image-20231025112050764](https://img-blog.csdnimg.cn/874ad4fd3dbe4f6bb3bff17885655014.png#pic_center)

**网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。**

**[需要这份系统化资料的朋友,可以点击这里获取](https://bbs.csdn.net/forums/4f45ff00ff254613a03fab5e56a57acb)**

**一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!**

  • 19
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值