python敏感字替换_python实现敏感词过滤的几种方法

最新推荐文章于 2024-09-03 13:08:11 发布

weixin_39652136

最新推荐文章于 2024-09-03 13:08:11 发布

阅读量5.9k

点赞数

文章标签： python敏感字替换

本文介绍了三种Python实现敏感词过滤的方法：1.replace简单过滤，效率低；2.使用正则表达式sub()函数过滤，效率优于replace；3.DFA算法，通过状态转移提高效率；4.AC自动机算法，结合字典树与失配指针，适用于大量关键词的高效检索。示例代码展示了每种方法的实现过程。

摘要由CSDN通过智能技术生成

1.replace过滤

最简单也是最直接的就是直接循环敏感词，然后使用replace过滤关键词，文章和敏感词少的时候还可以，多的时候效率就真的很一般了。

2.使用正则过滤

有两个技术要点，

1.使用Python正则表达式的re的sub()函数;

2.在正则表达式语法中，竖线“|”表示二选一或多选一。

代码参考

import re

def check_filter(keywords, text):

return re.sub("|".join(keywords), "***", text)

keywords = ("暴力", "色情", "其他关键字")

text = "这句话里不包含暴力，也不包含色情，但是可能包含其他关键字"

print(check_filter(keywords, text))

返回结果

这句话里不包含***，也不包含***，但是可能包含***

3.DFA过滤敏感词算法

在网上查了下敏感词过滤方案，找到了一种名为DFA的算法，即Deterministic Finite Automaton算法，翻译成中文就是确定有穷自动机算法。它的基本思想是基于状态转移来检索敏感词，只需要扫描一次待检测文本，就能对所有敏感词进行检测，所以效率比方案一高不少。

假设我们有以下5个敏感词需要检测：傻逼、傻子、傻大个、坏蛋、坏人。那么我们可以先把敏感词中有相同前缀的词组合成一个树形结构，不同前缀的词分属不同树形分支，以上述5个敏感词为例，可以初始化成如下2棵树：

c124b0d6ebb0

image.png

c124b0d6ebb0

image.png

把敏感词组成成树形结构有什么好处呢？最大的好处就是可以减少检索次数，我们只需要遍历一次待检测文本，然后在敏感词库中检索出有没有该字符对应的子树就行了，如果没有相应的子树，说明当前检测的字符不在敏感词库中，则直接跳过继续检测下一个字符；如果有相应的子树，则接着检查下一个字符是不是前一个字符对应的子树的子节点，这样迭代下去，就能找出待检测文本中是否包含敏感词了。

我们以文本“你是不是傻逼”为例，我们依次检测每个字符，因为前4个字符都不在敏感词库里，找不到相应的子树，所以直接跳过。当检测到“傻”字时，发现敏感词库中有相应的子树，我们把他记为tree-1，接着再搜索下一个字符“逼”是不是子树tree-1的子节点，发现恰好是，接下来再判断“逼”这个字符是不是叶子节点，如果是，则说明匹配到了一个敏感词了，在这里“逼”这个字符刚好是tree-1的