AC算法在文本匹配中的应用｜谛听安全智能审核

最新推荐文章于 2024-03-19 09:43:02 发布

谛听安全

最新推荐文章于 2024-03-19 09:43:02 发布

阅读量165

点赞数 10

文章标签：算法图论数据结构

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Diting2020/article/details/127432552

版权

本文作者：L_Leisure，行者AI工作室；转载请注明来源；

背景

在工作中需要对一些 违禁词进行拦截，实际应用场景中，需保证匹配过程在数百毫秒内给出结果。因此，如何快速，准确的识别文本中是否包含了这些关键词就变得尤为重要。

对于上述问题我们描述为以下形式。

给定关键词集合P={p1,p2,……,pk}，在目标串T[1…m]中找到出现了哪些关键词。

最容易想到的方法就是针对每个单词去匹配一遍，最后总结出都哪些单词匹配成功。

考虑KMP算法，单个关键词匹配的时间复杂度是O(|pk|+m)，所以，所有关键词都匹配一遍的时间复杂度为O(|p1|+m+|p2|+m+…+|pk|+m)。令n=|p1|+…+|pk|，上式化简为O(n+km)，因此，当关键词的数量变得非常多时，这种算法就变得无法忍受了。

Alfred V.Aho和Margaret J.Corasick在1974年提出了一个经典的多模式匹配算法-AC算法，这个算法可以保证对于给定的长度为n的文本，和模式集合P{p1,p2,…pm}，在O(n)的时间复杂度内找到文本中的所有目标模式，而

最低0.47元/天解锁文章

关注

10
点赞
踩
11

收藏

觉得还不错? 一键收藏
打赏
11
评论
AC算法在文本匹配中的应用｜谛听安全智能审核

在工作中需要对一些违禁词进行拦截，实际应用场景中，需保证匹配过程在数百毫秒内给出结果。因此，如何快速，准确的识别文本中是否包含了这些关键词就变得尤为重要。
复制链接

扫一扫

评论 11

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

谛听安全 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。