python敏感字替换_python实现敏感词过滤的几种方法

本文介绍了三种Python实现敏感词过滤的方法:1.replace简单过滤,效率低;2.使用正则表达式sub()函数过滤,效率优于replace;3.DFA算法,通过状态转移提高效率;4.AC自动机算法,结合字典树与失配指针,适用于大量关键词的高效检索。示例代码展示了每种方法的实现过程。
摘要由CSDN通过智能技术生成

1.replace过滤

最简单也是最直接的就是直接循环敏感词,然后使用replace过滤关键词,文章和敏感词少的时候还可以,多的时候效率就真的很一般了。

2.使用正则过滤

有两个技术要点,

1.使用Python正则表达式的re的sub()函数;

2.在正则表达式语法中,竖线“|”表示二选一或多选一。

代码参考

import re

def check_filter(keywords, text):

return re.sub("|".join(keywords), "***", text)

keywords = ("暴力", "色情", "其他关键字")

text = "这句话里不包含暴力,也不包含色情,但是可能包含其他关键字"

print(check_filter(keywords, text))

返回结果

这句话里不包含***,也不包含***,但是可能包含***

3.DFA过滤敏感词算法

在网上查了下敏感词过滤方案,找到了一种名为DFA的算法,即Deterministic Finite Automaton算法,翻译成中文就是确定有穷自动机算法。它的基本思想是基于状态转移来检索敏感词,只需要扫描一次待检测文本,就能对所有敏感词进行检测,所以效率比方案一高不少。

假设我们有以下5个敏感词需要检测:傻逼、傻子、傻大个、坏蛋、坏人。那么我们可以先把敏感词中有相同前缀的词组合成一个树形结构,不同前缀的词分属不同树形分支,以上述5个敏感词为例,可以初始化成如下2棵树:

c124b0d6ebb0

image.png

c124b0d6ebb0

image.png

把敏感词组成成树形结构有什么好处呢?最大的好处就是可以减少检索次数,我们只需要遍历一次待检测文本,然后在敏感词库中检索出有没有该字符对应的子树就行了,如果没有相应的子树,说明当前检测的字符不在敏感词库中,则直接跳过继续检测下一个字符;如果有相应的子树,则接着检查下一个字符是不是前一个字符对应的子树的子节点,这样迭代下去,就能找出待检测文本中是否包含敏感词了。

我们以文本“你是不是傻逼”为例,我们依次检测每个字符,因为前4个字符都不在敏感词库里,找不到相应的子树,所以直接跳过。当检测到“傻”字时,发现敏感词库中有相应的子树,我们把他记为tree-1,接着再搜索下一个字符“逼”是不是子树tree-1的子节点,发现恰好是,接下来再判断“逼”这个字符是不是叶子节点,如果是,则说明匹配到了一个敏感词了,在这里“逼”这个字符刚好是tree-1的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值