SQL进阶技巧：SQL中的正则表达式应用？

莫叫石榴姐

已于 2024-10-30 21:43:34 修改

阅读量1.8k

点赞数 10

CC 4.0 BY-SA版权

分类专栏：数字化建设通关指南 # SQL进阶实战技巧文章标签： sql 正则表达式数据库数据仓库大数据数据分析 mysql

于 2024-10-10 08:00:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/godlovedaniel/article/details/142799154

数字化建设通关指南同时被 2 个专栏收录

442 篇文章 ¥79.90 ¥99.00

订阅专栏

SQL进阶实战技巧

252 篇文章 ¥49.90 ¥99.00

订阅专栏

目录

1. 正则表达式函数

1.1 regexp_extract

1.2 regexp_replace

1.3 regexp_like

2. 在WHERE子句中使用正则表达式

3. 在GROUP BY中使用正则表达式

4. 性能考虑

5. 高级正则表达式技巧

5.1 使用正则表达式进行数据清洗

5.2 使用正则表达式处理JSON

6. 正则表达式与窗口函数的结合

7. 使用UDF扩展正则表达式功能

8. 性能优化技巧

9. 实际应用案例

9.1 日志分析

9.2 文本分类

10. 正则表达式在ETL过程中的应用

10.1 数据提取 (Extract)

10.2 数据转换 (Transform)

10.3 数据加载前的验证 (Load)

11 正则表达式性能调优

11.1 使用Explain计划

11.2 正则表达式优化技巧

12. 正则表达式安全性考虑

13. 正则表达式与机器学习的结合

14 正则表达式元字符总结

如果觉得本文对你有帮助，想进一步学习SQL语言这门艺术的，那么不妨也可以选择去看看我的博客专栏，部分内容如下：

数字化建设通关指南

专栏原价99，现在活动价59.9，按照阶梯式增长，直到恢复原价。

0 引言

“ 正则表达式是一种强大的文本处理工具,在 SQL中也得到了广泛支持。本文将介绍HiveSQL中使用正则表达式的主要方法和常见场景。”

1. 正则表达式函数

Hive SQL提供了几个内置函数来处理正则表达式:

1.1 regexp_extract

regexp_extract(string, pattern, idx) 函数用于从字符串中提取匹配正则表达式的子串。

SELECT regexp_extract('foo|bar|baz', '(\\w+)\\|(\\w+)', 2) AS extracted;-- 结果: bar

了解本专栏

莫叫石榴姐

博客等级

码龄11年

716
原创

8457
点赞

9271
收藏

3万+
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: SQL进阶技巧：Order by 中 NULLS LAST特性使用？

下一篇：: SQL进阶技巧：如何使用Order by 中 NULLS LAST特性进行自然排序？

最新评论

SQL面试题：可能好友问题
2301_76650408: 没看懂，筛选条件：a.id < b.id (避免重复，如 A-B 和 B-A)。这里怎么用 a.id<b.id呢，这都是字符怎么比较的，
SQL进阶实战技巧：汽车转向次数分析 | 真实场景案例
维C＋+: [code=sql] CASE WHEN START_TURN_FLAG_TEMP1=1 AND LAG(END_TURN_FLAG_TEMP1,1) OVER(...)=1 THEN 1 ELSE 0 END AS START_TURN_FLAG, [/code] 这个按照转向开始和结束的规则来看不会一直是0吗，start_turn_flag_temp1是开始转弯帧，end_turn_flag_temp1是结束转弯开始帧，这两个指标为1的时候不可能是连续两行的吧，因为标记为结束转弯开始帧后面一定会有两个turn_dir<3的行
SQL面试提问：如何计算每个月的订单数量和总金额以及与上个月相比的环比增长率
莫叫石榴姐: 两种方法都可以实现。累计值环比，用关联形式不容易出错，稍微好一点，一般环比指的月环比，周环比等，是一个连续序列。这种累计值，有的产品会提这样需求，有点不符合概念，稍微复杂一点，如果对于月末比如六月份30天，5月份31天，就存在对不上情况(有的到了月末处理方法是自动转成月环比)，lag其实也可以实现，就是判断复杂一些。另外存在有的日期没有业务数据的情况，一般数仓处理方法就是用时间维度表做主表关联数据表补齐时间维度，再用lag函数就不会有问题。
SQL面试提问：如何计算每个月的订单数量和总金额以及与上个月相比的环比增长率
莫叫石榴姐: 两种方法都可以实现。累计值环比，用关联形式不容易出错，稍微好一点，一般环比指的月环比，周环比等，是一个连续序列。这种累计值，有的产品会提这样需求，有点不符合概念，稍微复杂一点，如果对于月末比如六月份30天，5月份31天，就存在对不上情况(有的到了月末处理方法是自动转成月环比)，lag其实也可以实现，就是判断复杂一些。另外存在有的日期没有业务数据的情况，一般数仓处理方法就是用时间维度表做主表关联数据表补齐时间维度，再用lag函数就不会有问题。
SQL面试提问：如何计算每个月的订单数量和总金额以及与上个月相比的环比增长率
heheha_zj: 石榴姐，如果出现，在业务中，如果出现环比计算为截止到当前日期的环比比如，目前为9号，那就是 5月份1-9 和 6月份 1-9的环比，只能通过自连接的方式吧，还有就是假如5月份没有数据，那我们使用开窗函数的话，环比数据应该不对吧，除非保证上月一定会存在数据

大家在看

最新文章

2025

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。