python正则表达式思考_重正则表达式真的很耗时

我使用以下正则表达式来检测html文件中的开始和结束脚本标记:

简而言之:<script NOT</s>NOT</s</script>

它可以工作,但需要很长时间才能检测到<script>,

即使是几分钟或几小时的长串

精简版甚至适合长串:

^{pr2}$

不过,我也将扩展模式用于其他标记,例如<a><和>可以作为属性值

python测试:import re

pattern = re.compile('', re.I + re.DOTALL)

re.search(pattern, '1122').group()

re.search(pattern, '').group()

我怎样才能修好它?

regex的内部部分(在<script>之后)应该更改并简化。在

注:)预计你的答案是错误的,比如在html解析中使用regex,

我非常了解许多html/xml解析器,而且在经常损坏的html代码中,regex在这里非常有用。在

评论:

好吧,我需要处理:

每个<a<文档类似这个边界=“5px;”>

方法是将解析器和正则表达式一起使用

beauthoulsoup只有2k行,它不处理每个html,只是从sgmllib扩展regex。在

主要原因是我必须知道每个标签开始和停止的确切位置。每一个损坏的html都必须被处理。

BS并不完美,有时会发生:

美化组('<scriPt\n\n>a<aa>s</scriPt>')。findAll('scriPt')==[]

@赛利安:

如您所知,原子分组在python的re中不可用。

所以非极客的一切都是?until<\s*/\s*tag\s*>是这次的赢家。在

我知道在这种情况下这并不完美:

搜索('<\s*脚本。?<\s/\s*script\s*>','<script</script>狗屎</script>')。group()

但我可以在下一个解析中处理被拒绝的tail。

很明显,用regex解析html并不是一场战斗。在

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值