支持并、交、差的多正则引擎

最新推荐文章于 2024-10-17 19:59:49 发布

Gibson314

最新推荐文章于 2024-10-17 19:59:49 发布

阅读量126

点赞数

文章标签：正则表达式

原文链接：https://zhuanlan.zhihu.com/p/488817304

版权

这篇博客介绍了一个独特的正则表达式引擎，它在编译时处理并、交、差操作，不影响匹配性能。引擎支持多正则匹配，只需扫描一次输入即可得知匹配结果，对比逐个匹配更高效。此外，引擎还实现了非贪心匹配的DFA实现。作者讨论了正则语法、DFA的效率和一些特殊语法，并提供了相关示例和DFA状态转移图。

摘要由CSDN通过智能技术生成

作者: rockeet（雷鹏）
发表日期: 2014年09月08日
原始链接：支持并、交、差的正则表达式引擎
分类: 自动机
阅读次数: 11,712 次

　　先强调一点，在我的引擎中，所有正则表达式的语法结构，包括并、交、差、补都是在编译时完成的，对匹配性能无任何影响，切记！…… 现在可以开始了：
　　正则表达式，描述的是正则语言，学过形式语言与自动机理论的同学应该都知道，正则语言在并、交、差、补运算下都是封闭的；但是，根据 Wikipedia 的描述，到目前为止，还没有任何一个已知的正则流派(Flavor)将交和差纳入正则语法。理论与实践之间竟然隔着这么巨大的鸿沟！

　　除此之外，该正则引擎是“ 多正则”引擎，也就是说，给定 多个正则表达式，匹配时，只需要 扫描一遍输入，就能知道匹配了哪些正则，这比 逐个匹配多个正则表达式要快得多。2015 年底开源的 hyperscan 也是一个 多正则引擎，但它不支持并交差，并且在正则数量很多（几十几百万）时性能退化严重。

　　虽然 Perl 正则中支持的环视(Look Around)在某种意义上可以认为是交和差的受限子集（之所以说是受限，因为你无法自由组合并交差操作）。另一方面，环视在这些引擎中都是以回溯的方式实现的，效率十分低下。
Java 正则引擎支持字符类的并交差(类似[\w&&[^a-f]])，这的确在某些情况下带来了一些便利，但是和本文描述的并交差完全没有可比性(完全不是一个概念)！

理论上讲，pcre 的环视（排除反向引用），也可以使用 DFA 实现，期待 pcre 社区早日实现这个优化。

Lucene 中有个支持并交差的正则引擎，看它的代码，是借鉴了 brics.dk/automaton 的，效率很差，并且不支持多正则匹配。

　　其实，不光正则语言在并、交、差、补运算下都是封闭的，而且，用来表达正则语言的 DFA 可以比较高效地实现这些操作，补运算的复杂度是O(n) ，并交差的复杂度是O(n*m)；这比 NFA 转 DFA 的ＯＯ(2n)要乐观地多，而且，这只是最坏情况下的复杂度，现实中要比这个低得多。
　　经过一番努力，我填补了交、差这个鸿沟，为了语言的完备性和易用性，同时也实现了传统正则的并、连接、重复，为了区别于传统的 RegEx，暂且把它叫做 RegEx++。
　　在语言设计上，一方面为了避免处理无比复杂的转义、字符类、unicode之类的泥潭，另一方面也为了兼容传统的正则，我设计的 RegEx++ 语言分为两部分，一部分是去除了环视和反向引用的Perl正则(re2语法)，一部分是 RegEx++ 特有的并、交、差、连接、重复。

以 BNF 范式表达

Union  := Inter { '||' Union }
Inter  := ConCat { '&&' ConCat | '&!' ConCat }
ConCat := Repeat { Repeat }
Repeat := Atom [ ( '?' | '*' | '+' | Range ) [ ':' Atom ] ]
Atom   := '{{' PlainOldRegex '}}' | '(' Union ')'
Range  := '{' Min [ ',' Max ] | ',' Max '}'

用更通俗的方式表达

　　优先级一列中，处于同一组的操作符优先级相同，其中优先级最低的四个操作：连接、交、差、并都是左结合的，其中连接、交、并遵守结合律，交、并还遵守交换律。

　　这里面唯一比较别扭的是{{ }}括起来的 Plain Old Regex，一个语法正确并且规范的正则表达式中不会出现 {{ 和 }}，只有一个例外：\{{，这个例外很容易处理。其实严格讲，语法正确的正则表达式中可以出现 {{ 和 }}，但这样正则表达式往往是有问题的，{ 和 } 用作非元字符时，需要转义（\{和\}），而 { 和 } 不转义时是元字符，不会出现 {{ 和 }}， Plain Old Regex 允许未转义的 { 和 } 是为了最大限度地“容忍错误”，传统正则语法甚至容忍这样的正则: [[[[]*，还有 ]{{1-2}，你知道这都是什么意思吗？

　　还有一点，这里的重复 {min,max} 语法比 Plain Old Regex 中的 {min,max} 要严格，不光要语法正确，而且要规范，不“容忍”任何错误，下面是几种特殊情况：

　　补运算我没有单独实现，因为可以用一个非常简单的语法来表达：X 的补就是 {{.*}} &! X

非贪心匹配(Lazy Match / NonGreedy Match)

　　与传统正则引擎不同，这里的非贪心匹配也是用 DFA 实现的。通用的非贪心匹配在大多数 “资深” 的正则引擎专家眼里，只能用回溯法实现，我也在很长时间内被这种论调蒙蔽了心智，很可悲！
　　最近(2014-09-23)我忽然意识到，非贪心匹配也许可以用 DFA 实现，经过仔细思考，从理论上证明了这一点。
　　于是我新增加了非贪心连接操作符(:)，A# : B，其中 # 是任意最少重复 0 次的 repeat 操作符，表示非贪心匹配 A#，后面跟个 B。A# : B 在功能上等价于 ( A# &! (A* B A*)+ ) B，在 regex_build 内部，A# : B 就是 ( A# &! (A* B A*)+ ) B 的语法糖。
　　当非贪心连接前面的 repeat 操作符的最小重复次数大于0时，最小重复次数不能被“非贪心”掉，在 regex_build 中，针对这种情况进行了自动重写(rewrite)，重写规则举例如下：