在我们生活中的一些场合经常会有一些不该出现的敏感词,我们通常会使用*去屏蔽它,例如:尼玛 -> **,一些骂人的敏感词和一些政治敏感词都不应该出现在一些公共场合中,这个时候我们就需要一定的手段去屏蔽这些敏感词。下面我来介绍一些简单版本的敏感词屏蔽的方法。
(我已经尽量把脏话做成图片的形式了,要不然文章发不出去)
方法一:replace过滤
replace就是最简单的字符串替换,当一串字符串中有可能会出现的敏感词时,我们直接使用相应的replace方法用*替换出敏感词即可。
缺点:
文本和敏感词少的时候还可以,多的时候效率就比较差了
import datetime
now = datetime.datetime.now()
print(filter_sentence, " | ", now)
如果是多个敏感词可以用列表进行逐一替换
for i in dirty:
speak = speak.replace(i, '*')
print(speak, " | ", now)
方法二:正则表达式过滤
正则表达式算是一个不错的匹配方法了,日常的查询中,机会都会用到正则表达式,包括我们的爬虫,也都是经常会使用到正则表达式的,在这里我们主要是使用“|”来进行匹配,“|”的意思是从多个目标字符串中选择一个进行匹配。写个简单的例子:
import re
def sentence_filter(keywords, text):
return re.sub("|".join(keywords), "***", text)
print(sentence_filter(dirty, speak))
方法三:DFA过滤算法
DFA的算法,即Deterministic Finite Automaton算法,翻译成中文就是确定有穷自动机算法。它的基本思想是基于状态转移来检索敏感词,只需要扫描一次待检测文本,就能对所有敏感词进行检测。(实现见代码注释)
#!/usr/bin/env python
# -*- coding:utf-8 -*-
# @Time:2020/4/15 11