3.1 使用前缀树过滤敏感词



使用前缀树过滤敏感词

前缀树简介

​ 前缀树又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。

它有3个基本性质:

1、根节点不包含字符,除根节点外每一个节点都只包含一个字符;

2、从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串;

3、每个节点的所有子节点包含的字符都不相同。

在这里插入图片描述

1、导入敏感词 可以存放到数据库 也可以放到文件里

在这里插入图片描述

2、定义前缀树 使用内部类

  • isEndNode //看是不是最后一个结点
  • Map<Character,TrieNode> subNodes 定义子节点 key是下级字符 value是子结点
  • 添加子结点
  • 通过字符获取子结点
private class TrieNode{
    //看是不是最后一个结点
    private boolean isEndNode=false;
    //定义子节点  key是下级字符  value是子节点
    private Map<Character,TrieNode> subNodes=new HashMap<>();


    //添加子节点
    public void addSubNode(Character character,TrieNode trieNode)
    {
        subNodes.put(character,trieNode);
    }

    //通过字符获取子节点
    public TrieNode getSubNode(Character character)
    {
        return subNodes.get(character);

    }
    public boolean isEndNode() {
        return isEndNode;
    }

    public void setEndNode(boolean endNode) {
        isEndNode = endNode;
    }
}

3、根据敏感词初始化前缀树

​ @PostConstruct该注解被用来修饰一个非静态的void()方法。被@PostConstruct修饰的方法会在服务器加载Servlet的时候运行,并且只会被服务器执行一次。PostConstruct在构造函数之后自动执行。

  • 获取编译后的敏感词文件
  • 把字节流转化为字符流再转化为缓冲流
  • 一行一行读取 ,把读取到的敏感词添加到前缀树中
//初始化前缀树
@PostConstruct
public void init()
{
    try ( InputStream inputStream=this.getClass().getClassLoader().getResourceAsStream("sensitive-words.txt");
          BufferedReader reader=new BufferedReader(new InputStreamReader(inputStream));
          )
    {
        String word;
        while ((word=reader.readLine())!=null)
        {
            //把敏感词添加到前缀树
            this.addKeyword(word);

        }
    } catch (Exception e) {
        logger.error("加载敏感词文件失败"+e.getMessage());
    }
}

将一个敏感词添加到前缀树

  • 创建临时结点先指向根节点
  • 以字符为单位,每次读取一个字符,先调用getSubNode 看是否有相同字符的子节点
  • 如果不存在相同字符的子节点则需要进行初始化,添加子节点
  • 把指针指向当前子节点进行下一次循环
  • 设置结束标识 如果当前结点为最后一个结点,则把其标识设置为true
//将一个敏感词添加到前缀树
private void addKeyword(String word)
{
    //创建临时结点先指向根节点
    TrieNode TempNode=rootNode;
    for(int i=0;i<word.length();i++)
    {
        char c=word.charAt(i);
        TrieNode subNode = TempNode.getSubNode(c);
        //如果得到的子节点为空 则添加 否则说明已经存在相同字符的子节点
        if(subNode==null){
            subNode=new TrieNode();
            TempNode.addSubNode(c,subNode);
        }
        //指向子节点 进入下一次循环
        TempNode=subNode;

        //设置结束标志
        if(i==word.length()-1)
        {
            TempNode.setEndNode(true);
        }
        
    }
}

4、编写过滤敏感词的方法

  • ❤赌❤博❤
  • 定义三个指针 指针1指向根节点 指针2 指向文本的开始 指针3 指向文本的开始
  • stringbuildeer存储过滤结果
  • 以第二指针是否到结尾为循环条件 ,以第三指针为条件可能会遗漏
  • 如果字符是符号并且此时是根节点的时候就追加符号 继续下次循环
  • 获取根结点的子节点判断 如果为空说明以该字符开头的词不是敏感词 begin++ 并且把该字符加入到结果中 不为空说明可能是敏感词 position++继续判断
// 判断是否为符号
private boolean isSymbol(Character c) {
    // 0x2E80~0x9FFF 是东亚文字范围
    return !CharUtils.isAsciiAlphanumeric(c) && (c < 0x2E80 || c > 0x9FFF);
}
/**
 * 过滤敏感词
 *
 * @param text 待过滤的文本
 * @return 过滤后的文本
 */
public String filter(String text) {
  //如果position等于text的length说明没有敏感词
            if(position==text.length())
            {
                stringBuilder.append(text.charAt(begin));
                position=++begin;
            }
    //如果文本为空则不过滤
   if(StringUtils.isBlank(text))
   {
       return null;
   }
   //定义指针1指向根节点
    TrieNode tempNode=rootNode;
   //定义指针2 指向文本的开始
    int begin=0;
    //定义指针3 指向文本的开始
    int position=0;
    //定义stringbuildeer存储过滤结果
    StringBuilder stringBuilder=new StringBuilder();
    //以第二指针是否到结尾为循环条件  ,以第三指针为条件可能会遗漏
    while (begin<text.length())
    {
        //获取position位置的字符
        char c=text.charAt(position);

        //跳过符号
        //比如❤赌❤博❤
        if(isSymbol(c))
        {
            //如果字符是符号并且此时是根节点的时候就追加符号 继续下次循环
            if(tempNode==rootNode)
            {
                position=++begin;
                stringBuilder.append(c);

            }
            // 无论符号在开头或中间,指针3都向下走一步
            position++;
            continue;
        }
        //获取根结点的子节点判断  如果为空说明以该字符开头的词不是敏感词  begin++  并且把该字符加入到结果中
        //不为空说明可能是敏感词 position++继续判断
        tempNode=tempNode.getSubNode(c);
        if(tempNode==null)
        {
            position=++begin;
            stringBuilder.append(c);
            //重新指向根节点
            tempNode=rootNode;
        }else if(tempNode.isEndNode) {
            //替换
            stringBuilder.append(REPLACE_WORD);
            //进入下一个位置
            begin=++position;
            //重新指向根节点
            tempNode=rootNode;
        }else {
            // 检查下一个字符
            position++;
        }
    }
    return stringBuilder.toString();

}

5、测试

@RunWith(SpringRunner.class)
@SpringBootTest
@ContextConfiguration(classes = CommunityApplication.class)
public class SensitiveFilterTest {

    @Autowired
    private SensitiveFilter sensitiveFilter;

    @Test
    public void testSensitiveFilter() {
        String text = "这里可以赌博,可以嫖娼,可以吸毒,可以开票,哈哈哈!";
        text = sensitiveFilter.filter(text);
        System.out.println(text);

        text = "这里可以☆赌☆博☆,可以☆嫖☆娼☆,可以☆吸☆毒☆,可以☆开☆票☆,哈哈哈!";
        text = sensitiveFilter.filter(text);
        System.out.println(text);
    }

}



*****输出结果
这里可以***,可以***,可以***,可以***,哈哈哈!
这里可以☆***☆,可以☆***☆,可以☆***☆,可以☆***☆,哈哈哈!


  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值