python正则表达式思考_重正则表达式真的很耗时

mark9xiao

于 2020-12-29 00:17:09 发布

阅读量271

点赞数

文章标签： python正则表达式思考

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35651916/article/details/112009334

版权

我使用以下正则表达式来检测html文件中的开始和结束脚本标记：

简而言之：&lt；script NOT&lt；/s&gt；NOT&lt；/s&lt；/script&gt；

它可以工作，但需要很长时间才能检测到&lt；script&gt；，

即使是几分钟或几小时的长串

精简版甚至适合长串：

^{pr2}$

不过，我也将扩展模式用于其他标记，例如&lt；a&gt；&lt；和&gt；可以作为属性值

python测试：import re

pattern = re.compile('', re.I + re.DOTALL)

re.search(pattern, '1122').group()

re.search(pattern, '').group()

我怎样才能修好它？

regex的内部部分(在&lt；script&gt；之后)应该更改并简化。在

注：)预计你的答案是错误的，比如在html解析中使用regex，

我非常了解许多html/xml解析器，而且在经常损坏的html代码中，regex在这里非常有用。在

评论：

好吧，我需要处理：

每个&lt；a&lt；文档类似这个边界=“5px；”&gt；

方法是将解析器和正则表达式一起使用

beauthoulsoup只有2k行，它不处理每个html，只是从sgmllib扩展regex。在

主要原因是我必须知道每个标签开始和停止的确切位置。每一个损坏的html都必须被处理。

BS并不完美，有时会发生：

美化组('&lt；scriPt\n\n&gt；a&lt；aa&gt；s&lt；/scriPt&gt；')。findAll('scriPt')==[]

@赛利安：

如您所知，原子分组在python的re中不可用。

所以非极客的一切都是？until&lt；\s*/\s*tag\s*&gt；是这次的赢家。在

我知道在这种情况下这并不完美：

搜索('&lt；\s*脚本。？&lt；\s/\s*script\s*&gt；'，'&lt；script&lt；/script&gt；狗屎&lt；/script&gt；')。group()

但我可以在下一个解析中处理被拒绝的tail。

很明显，用regex解析html并不是一场战斗。在

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python正则表达式思考_重正则表达式真的很耗时

我使用以下正则表达式来检测html文件中的开始和结束脚本标记：(?:[^
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。