3.1 使用前缀树过滤敏感词

AfterSum

已于 2022-03-01 09:51:02 修改

阅读量945

点赞数 1

分类专栏：仿牛客论坛学习笔记文章标签：数据结构 java 后端 spring boot

于 2022-02-27 11:30:34 首次发布

本文链接：https://blog.csdn.net/qiuyuguohou/article/details/123161720

版权

仿牛客论坛学习笔记专栏收录该内容

27 篇文章 28 订阅

订阅专栏

文章目录

使用前缀树过滤敏感词

使用前缀树过滤敏感词

前缀树简介

前缀树又称单词查找树，Trie树，是一种树形结构，是一种哈希树的变种。典型应用是用于统计，排序和保存大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：利用字符串的公共前缀来减少查询时间，最大限度地减少无谓的字符串比较，查询效率比哈希树高。

它有3个基本性质：

1、根节点不包含字符，除根节点外每一个节点都只包含一个字符；

2、从根节点到某一节点，路径上经过的字符连接起来，为该节点对应的字符串；

3、每个节点的所有子节点包含的字符都不相同。

在这里插入图片描述

1、导入敏感词可以存放到数据库也可以放到文件里

在这里插入图片描述

2、定义前缀树使用内部类

isEndNode //看是不是最后一个结点
Map<Character,TrieNode> subNodes 定义子节点 key是下级字符 value是子结点
添加子结点
通过字符获取子结点

private class TrieNode{
    //看是不是最后一个结点
    private boolean isEndNode=false;
    //定义子节点  key是下级字符  value是子节点
    private Map<Character,TrieNode> subNodes=new HashMap<>();


    //添加子节点
    public void addSubNode(Character character,TrieNode trieNode)
    {
        subNodes.put(character,trieNode);
    }

    //通过字符获取子节点
    public TrieNode getSubNode(Character character)
    {
        return subNodes.get(character);

    }
    public boolean isEndNode() {
        return isEndNode;
    }

    public void setEndNode(boolean endNode) {
        isEndNode = endNode;
    }
}

3、根据敏感词初始化前缀树

@PostConstruct该注解被用来修饰一个非静态的void（）方法。被@PostConstruct修饰的方法会在服务器加载Servlet的时候运行，并且只会被服务器执行一次。PostConstruct在构造函数之后自动执行。

获取编译后的敏感词文件
把字节流转化为字符流再转化为缓冲流
一行一行读取，把读取到的敏感词添加到前缀树中

//初始化前缀树
@PostConstruct
public void init()
{
    try ( InputStream inputStream=this.getClass().getClassLoader().getResourceAsStream("sensitive-words.txt");
          BufferedReader reader=new BufferedReader(new InputStreamReader(inputStream));
          )
    {
        String word;
        while ((word=reader.readLine())!=null)
        {
            //把敏感词添加到前缀树
            this.addKeyword(word);

        }
    } catch (Exception e) {
        logger.error("加载敏感词文件失败"+e.getMessage());
    }
}

将一个敏感词添加到前缀树

创建临时结点先指向根节点
以字符为单位，每次读取一个字符，先调用getSubNode 看是否有相同字符的子节点
如果不存在相同字符的子节点则需要进行初始化，添加子节点
把指针指向当前子节点进行下一次循环
设置结束标识如果当前结点为最后一个结点，则把其标识设置为true

//将一个敏感词添加到前缀树
private void addKeyword(String word)
{
    //创建临时结点先指向根节点
    TrieNode TempNode=rootNode;
    for(int i=0;i<word.length();i++)
    {
        char c=word.charAt(i);
        TrieNode subNode = TempNode.getSubNode(c);
        //如果得到的子节点为空 则添加 否则说明已经存在相同字符的子节点
        if(subNode==null){
            subNode=new TrieNode();
            TempNode.addSubNode(c,subNode);
        }
        //指向子节点 进入下一次循环
        TempNode=subNode;

        //设置结束标志
        if(i==word.length()-1)
        {
            TempNode.setEndNode(true);
        }
        
    }
}

4、编写过滤敏感词的方法

❤赌❤博❤
定义三个指针指针1指向根节点指针2 指向文本的开始指针3 指向文本的开始
stringbuildeer存储过滤结果
以第二指针是否到结尾为循环条件 ,以第三指针为条件可能会遗漏
如果字符是符号并且此时是根节点的时候就追加符号继续下次循环
获取根结点的子节点判断如果为空说明以该字符开头的词不是敏感词 begin++ 并且把该字符加入到结果中不为空说明可能是敏感词 position++继续判断

// 判断是否为符号
private boolean isSymbol(Character c) {
    // 0x2E80~0x9FFF 是东亚文字范围
    return !CharUtils.isAsciiAlphanumeric(c) && (c < 0x2E80 || c > 0x9FFF);
}

/**
 * 过滤敏感词
 *
 * @param text 待过滤的文本
 * @return 过滤后的文本
 */
public String filter(String text) {
  //如果position等于text的length说明没有敏感词
            if(position==text.length())
            {
                stringBuilder.append(text.charAt(begin));
                position=++begin;
            }
    //如果文本为空则不过滤
   if(StringUtils.isBlank(text))
   {
       return null;
   }
   //定义指针1指向根节点
    TrieNode tempNode=rootNode;
   //定义指针2 指向文本的开始
    int begin=0;
    //定义指针3 指向文本的开始
    int position=0;
    //定义stringbuildeer存储过滤结果
    StringBuilder stringBuilder=new StringBuilder();
    //以第二指针是否到结尾为循环条件  ,以第三指针为条件可能会遗漏
    while (begin<text.length())
    {
        //获取position位置的字符
        char c=text.charAt(position);

        //跳过符号
        //比如❤赌❤博❤
        if(isSymbol(c))
        {
            //如果字符是符号并且此时是根节点的时候就追加符号 继续下次循环
            if(tempNode==rootNode)
            {
                position=++begin;
                stringBuilder.append(c);

            }
            // 无论符号在开头或中间,指针3都向下走一步
            position++;
            continue;
        }
        //获取根结点的子节点判断  如果为空说明以该字符开头的词不是敏感词  begin++  并且把该字符加入到结果中
        //不为空说明可能是敏感词 position++继续判断
        tempNode=tempNode.getSubNode(c);
        if(tempNode==null)
        {
            position=++begin;
            stringBuilder.append(c);
            //重新指向根节点
            tempNode=rootNode;
        }else if(tempNode.isEndNode) {
            //替换
            stringBuilder.append(REPLACE_WORD);
            //进入下一个位置
            begin=++position;
            //重新指向根节点
            tempNode=rootNode;
        }else {
            // 检查下一个字符
            position++;
        }
    }
    return stringBuilder.toString();

}

5、测试

@RunWith(SpringRunner.class)
@SpringBootTest
@ContextConfiguration(classes = CommunityApplication.class)
public class SensitiveFilterTest {

    @Autowired
    private SensitiveFilter sensitiveFilter;

    @Test
    public void testSensitiveFilter() {
        String text = "这里可以赌博,可以嫖娼,可以吸毒,可以开票,哈哈哈!";
        text = sensitiveFilter.filter(text);
        System.out.println(text);

        text = "这里可以☆赌☆博☆,可以☆嫖☆娼☆,可以☆吸☆毒☆,可以☆开☆票☆,哈哈哈!";
        text = sensitiveFilter.filter(text);
        System.out.println(text);
    }

}



*****输出结果
这里可以***,可以***,可以***,可以***,哈哈哈!
这里可以☆***☆,可以☆***☆,可以☆***☆,可以☆***☆,哈哈哈!