多正则匹配引擎（二）

最新推荐文章于 2023-09-18 11:08:01 发布

随意为之

最新推荐文章于 2023-09-18 11:08:01 发布

阅读量213

点赞数

文章标签： java 正则表达式大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/DaShuangXiaoShuang/article/details/107842059

版权

多正则匹配引擎（二）

实现思路
单个正则的NFA
所有正则的DFA

实现思路

正则的实现，偏向功能丰富的话，应该用NFA 的，偏向高效的话应该用 DFA的。
对多正则来说，很多正则一起计算，貌似要考虑性能。
我们采用混合模式。
单个正则编译成NFA，合成出一个大DFA 表示所有正则
但是不可避免地，这会引起DFA 状态膨胀，我们做了一定妥协解决问题。

单个正则的NFA

这又分几种实现方法，我们不采用中规中矩的实现，采用一种非回溯的虚拟机实现。这个表面上看是以指令为主的虚拟机，实质还是NFA，但比NFA 好理解。
我们选用老牌的 PikeVM，其java 版本非常简洁，方便我们扩充。其实用re2 也没有问题。

所有正则的DFA

我们对每个正则生成 VM，然后转换成正规的NFA，转换成DFA(并极小化)，然后合成一个总的DFA。
我们匹配过程是DFA用来召回正则的ID，详情还是要用VM 再次匹配。因此为了抑制状态数膨胀，我们转换过程舍弃了准确性

指令优化

对一些指令，如环视，group位置保存等，直接转换成epsilon，相当于忽略掉了。

边的优化

一个状态下如果有大量的边指向另一个状态，如任意字符, 一些否定字符等，是导致状态膨胀的元凶。我们一律优化为只有一条边（值为-1，表示任意字符）

DFA 的整体优化

在将大量 DFA 合成总DFA时，虽然有上述优化，还是有可能状态膨胀到无法完成。这时候我们将总的状态设置一个上限，超出上限后，不再继续合成总DFA 状态，而是将原始DFA 中剩余的DFA 状态保留起来，匹配时特殊处理。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。