过滤敏感词的两种方法:
第一种:
当然利用replace直接进行替换,虽然这种方法可行,但是当遇到大量的用户输入时,就会相当消耗资源,在开发中并不可取
第二种:
前缀树过滤敏感词
这种方式查找效率非常的高,但有一个弊端,就是消耗内存,因为使用前缀树的方法,首先是要将敏感词写入树的一个个节点当中,这些敏感词从哪里来呢?
要么是将敏感词放入数据库中,要么就是将敏感词以文本形式放入MAVEN项目中的resource路径下,当然敏感词是有很多的,显然直接占用了内存资源,这就是典型的以空间换时间。
前缀树在词频统计,字符串排序,字符串检索都可以应用
当然,这个方法的使用前提是得学会前缀树才行,
下面是我自己画的,看不懂的可以移步那个链接大佬的文章
https://www.cnblogs.com/hd-zg/p/10591065.html
好了,下面是演示代码,也是跟老师学的,记录一下,嘿嘿!
首先我们需要根据前缀树特性,建立前缀树类,我们利用内部类的形式建立(因为只在外部类中使用,将限定符定为private就行),代码如下:
//敏感词过滤器
@Component
public class MGWordFilter {
// 首先定义前缀树
// 尔后将所有敏感词放到节点上
// 最后创建过滤器
// 前缀树
private class TrieNode {
// 关键词结束标识(是否是最后的字)
private boolean isKeywordEnd = false;
// 子节点(key是下级字符,value是下级节点)
private Map<Character, TrieNode> subNodes = new HashMap<>();
public boolean isKeywordEnd() {
return isKeywordEnd;
}
public void setKeywordEnd(boolean keywordEnd) {
isKeywordEnd = keywordEnd;
}
// 添加子节点
public void addSubNode(Character c, TrieNode node) {
subNodes.put(c, node);
}
// 获取子节点
public TrieNode getSubNode(Character c) {
return subNodes.get(c);
}
}
}
作为小德莫,对于敏感词,我是直接将这些敏感词放入txt文件中,然后直接放入maven项目下的resource目录下,这个地方需要注意一下,对于txt文件,他不会自动给你编译放入classes中,因为过会儿我们建立敏感词前缀树的时候会利用流的形式提前加载txt,所以我们需要自己clean一下,然后再compile一下,将txt文件加载进classes中。
下面的代码也都是在MGWordFilter 中写的:
// 替换符
private static final String REPLACEMENT = "***";
// 根节点
private TrieNode rootNode = new TrieNode();
@PostConstruct
public void init() {
// 将流写在try的小括号中,就不用写finally,会自动配置finally来关流
try (
InputStream is = this.getClass().getClassLoader().getResourceAsStream("MG-Words.txt");
BufferedReader reader = new BufferedReader(new InputStreamReader(is));
) {
String keyword;
while ((keyword = reader.readLine()) != null) {
// 添加到前缀树
this.addKeyword(keyword);
}
} catch (IOException e) {
}
}
// 将一个敏感词添加到前缀树中
private void addKeyword(String keyword) {
// 将根节点定义为当前节点
TrieNode tempNode = rootNode;
for (int i = 0; i < keyword.length(); i++) {
//获取字符
char c = keyword.charAt(i);
// 从当前节点中获取子节点
TrieNode subNode = tempNode.getSubNode(c);
// 匹配是否有子节点
if (subNode == null) {
// 初始化子节点
subNode = new TrieNode();
// 添加子节点
tempNode.addSubNode(c, subNode);
}
// 指向子节点,进入下一轮循环
tempNode = subNode;
// 设置结束标识,如果i是最后一个字符,就将最后一个字符标记
if (i == keyword.length() - 1) {
tempNode.setKeywordEnd(true);
}
}
}
下面我们可以开始写外部使用过滤器的方法了,所以将其设置为public以便外部访问,这时候我们需要写三个指针(假设定义为A,B,C),A指针在根节点,B和C指针放在需要过滤的外部输入的文字上面,B指针进行逐字停留,然后A指针从根节点划到子节点进行匹配,如果不是敏感词,指针A退回根节点,然后记录当前字符,指针B划到下一字符,指针C跟随指针B划到相同字符。指针A从根节点再次划到子节点,查看是否与指针B所指匹配,如果匹配,指针B不动,指针C划到下一字符,同时指针A划到下一子节点,查看是否为敏感词,如果是敏感词,查看是否是敏感词的最后一个词,如果是,就用替换符替换,如果不是继续进行下一字符的匹配,以此类推。
public String filter(String text) {
if (StringUtils.isBlank(text)) {
return null;
}
// 指针1
TrieNode tempNode = rootNode;
// 指针2
int begin = 0;
// 指针3
int position = 0;
// 结果
StringBuilder sb = new StringBuilder();
// 通过画图可了解指针三是可以首先到达最后的,所以相对于指针二,利用指针三来判断可以提高效率
while (position < text.length()) {
char c = text.charAt(position);
// 跳过符号
if (isSymbol(c)) {
// 若指针1处于根节点,将此符号计入结果,让指针2向下走一步
if (tempNode == rootNode) {
sb.append(c);
begin++;
}
// 无论符号在开头或中间,指针3都向下走一步
position++;
continue;
}
// 当不等于符号时,检查下级节点
tempNode = tempNode.getSubNode(c);
if (tempNode == null) {
// 以begin开头的字符串不是敏感词
sb.append(text.charAt(begin));
// 进入下一个位置
position = ++begin;
// 重新指向根节点
tempNode = rootNode;
} else if (tempNode.isKeywordEnd()) {
// 发现敏感词,将begin~position字符串替换掉
sb.append(REPLACEMENT);
// 进入下一个位置
begin = ++position;
// 重新指向根节点
tempNode = rootNode;
} else {
// 检查下一个字符
position++;
}
}
// 将最后一批字符计入结果
sb.append(text.substring(begin));
return sb.toString();
}
// 判断是否为符号
private boolean isSymbol(Character c) {
// 0x2E80~0x9FFF 是东亚文字范围
return !CharUtils.isAsciiAlphanumeric(c) && (c < 0x2E80 || c > 0x9FFF);
}
下面是测试代码:
@RunWith(SpringRunner.class)
@SpringBootTest
@ContextConfiguration(classes = Application.class)
public class MgWordTest {
@Autowired
private MGWordFilter mgWordFilter;
@Test
public void TestMG(){
String text = "⭐我⭐丢⭐,⭐你怎⭐么傻了⭐吧⭐唧⭐的,你是3⭐B";
String filter = mgWordFilter.filter(text);
System.out.println(filter);
}
}
结果: