python中哪些词是敏感字词_python实现敏感词过滤的几种方法

weixin_39928648

于 2020-12-22 15:23:26 发布

阅读量1.1k

点赞数

文章标签： python中哪些词是敏感字词

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39928648/article/details/111855561

版权

本文介绍了Python中实现敏感词过滤的两种高效算法：DFA（确定有穷自动机）和AC自动机。DFA通过树形结构减少检索次数，提高效率；AC自动机结合字典树和KMP算法，用于快速查找多个敏感词在文本中的出现情况。

摘要由CSDN通过智能技术生成

1.replace过滤

最简单也是最直接的就是直接循环敏感词，然后使用replace过滤关键词，文章和敏感词少的时候还可以，多的时候效率就真的很一般了。

2.使用正则过滤

有两个技术要点，

1.使用Python正则表达式的re的sub()函数;

2.在正则表达式语法中，竖线“|”表示二选一或多选一。

代码参考

返回结果

3.DFA过滤敏感词算法

在网上查了下敏感词过滤方案，找到了一种名为DFA的算法，即Deterministic Finite Automaton算法，翻译成中文就是确定有穷自动机算法。它的基本思想是基于状态转移来检索敏感词，只需要扫描一次待检测文本，就能对所有敏感词进行检测，所以效率比方案一高不少。

假设我们有以下5个敏感词需要检测：傻逼、傻子、傻大个、坏蛋、坏人。那么我们可以先把敏感词中有相同前缀的词组合成一个树形结构，不同前缀的词分属不同树形分支，以上述5个敏感词为例，可以初始化成如下2棵树：

image.png

image.png

把敏感词组成成树形结构有什么好处呢？最大的好处就是可以减少检索次数，我们只需要遍历一次待检测文本，然后在敏感词库中检索出有没有该字符对应的子树就行了，如果没有相应的子树，说明当前检测的字符不在敏感词库中，则直接跳过继续检测下一个字符；如果有相应的子树，则接着检查下一个字符是不是前一个字符对应的子树的子节点&#

最低0.47元/天解锁文章

weixin_39928648

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python中哪些词是敏感字词_python实现敏感词过滤的几种方法

1.replace过滤最简单也是最直接的就是直接循环敏感词，然后使用replace过滤关键词，文章和敏感词少的时候还可以，多的时候效率就真的很一般了。2.使用正则过滤有两个技术要点，1.使用Python正则表达式的re的sub()函数;2.在正则表达式语法中，竖线“|”表示二选一或多选一。代码参考返回结果3.DFA过滤敏感词算法在网上查了下敏感词过滤方案，找到了一种名为DFA的算法，即Determ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。