参考<<精通正则表达式>>一书对我们ETL log解析模块一个正则的优化

最新推荐文章于 2023-07-03 07:42:48 发布

_假象

最新推荐文章于 2023-07-03 07:42:48 发布

阅读量893

点赞数

分类专栏：正则文章标签： python 正则表达式正则正则零宽断言

本文链接：https://blog.csdn.net/wali_wang/article/details/50478047

版权

正则专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一句话需求：从ETL的log中提取出来一个ETL脚本落地了哪些临时表，日常数据库运维需要这些数据。

经过python程序处理后，提取到了如下的信息，这些在脚本中DELETE的都是临时表。

DELETE FROM DTEMP.L_SELL_PROXY_MARKETER_02 ALL;

可能大家疑惑这个很简单啊，不用正则，python完全可以处理。暂且不去讨论”前人”为何选择正则去处理。

先上”前人”的正则表达式：

.+\.(.+)\sALL;

分析该正则：

.+   .匹配换行以外的任意字符，而后面的+代表匹配优先量词，因此.+匹配了正行数据

\.    匹配一个.符号，由于要匹配这个字符，前面.+不得不将他匹配到的吐出来，直到.的位置，这就产生了几十个回溯

(.+)  同理依旧会吐下.以后所有的字符

 \sALL;  又强迫(.+)吐出来很多字符，这又产生了回溯

这个正则总共回溯近40次完成了匹配，虽然对我们的程序没有产生太大的效率问题，还是决定优化下这个正则。

该正则问题在于滥用. 和+

优化思考：
1：既然我只要表名（L_SELL_PROXY_MARKETER_02）那么我是否能将匹配的锚点定到.这个位置
2：分组中的.何不换成\w

最后的正则：

(?=\.)\.(\w+).?

优化后的执行：
这里写图片描述

测试通过：

import re
print re.search(r"(?=\.)\.(\w+).?","DELETE FROM DTEMP.L_SELL_PROXY_MARKETER_02 ALL;").group(1)

_假象

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录