python正则判断字符长度不能超过50_Python的正则表达式源字符串长度

在Python正则表达式中,

re.compile("x"*50000)

给我OverflowError:超出正则表达式代码大小限制

但是跟随一个没有得到任何错误,但它达到了100%的CPU,并在我的电脑中花了1分钟

>>> re.compile(".*?.*?.*?.*?.*?.*?.*?.*?.*?.*?"*50000)

这是正常的吗?

我应该假设,“.*?.*?.*?.*?.*?.*?.*?.*?.*?.*?”* 50000比“x”* 50000短?

在Python 2.6,Win32上测试过

更新1:

看起来像“.*?.*?.*?.*?.*?.*?.*?.*?.*?.*?”* 50000可以缩小为.*?

那么,这个怎么样?

re.compile(".*?x"*50000)

它确实编译,如果那个也可以减少到“.*?x”,它应该只匹配字符串“abcx”或“x”,但它不匹配.

那么,我错过了什么吗?

更新2:

我的观点是不知道正则表达式源字符串的最大限制,我想知道溢出处理程序捕获的“x”* 50000的一些原因/概念,但不是“.*?x”* 50000.

这对我来说没有意义,这就是为什么.

在溢出检查中它是缺少的东西或它只是很好或它真的溢出的东西?

任何提示/意见将不胜感激.

解决方法:

区别在于“.*?.*?.*?.*?.*?.*?.*?.*?.*?.*?”* 50000可以缩减为“.*?”,而“ x“* 50000必须在FSM中生成50000个节点(或正则表达式引擎使用的类似结构).

编辑:好的,我错了.这不是那么聪明. “x”* 50000失败的原因,但“.*?x”* 50000并不是对一个“代码项”的大小有限制. “x”* 50000将生成一个长项目,“.*?x”* 50000将生成许多小项目.如果你可以以某种方式拆分字符串文字而不改变正则表达式的含义,它会起作用,但我想不出办法做到这一点.

标签:python,regex

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值