使用前缀树算法实现过滤敏感词汇

先上张图片来简单说明一下简单说一下前缀树的特点
在这里插入图片描述
前缀树过滤敏感词运作原理图如下
在这里插入图片描述
3.创建一个springboot项目,在resource目录下面定义一个敏感词汇的文本,这里简单取个名字叫做sensitive-word.txt,文本里面的敏感词汇如下
在这里插入图片描述
4.新建一个工具包,里面实现敏感词汇过滤的代码如下

        package com.cd.utils;

import org.apache.commons.lang3.CharUtils;
import org.apache.commons.lang3.StringUtils;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.springframework.stereotype.Component;

import javax.annotation.PostConstruct;
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.util.HashMap;
import java.util.Map;

/**
*  敏感词过滤器
*/
   @Component
public class SensitiveFilter {
       
private static final Logger logger = LoggerFactory.getLogger(SensitiveFilter.class);

       // 替换符
private static final String REPLACEMENT = "***";

      // 初始化根节点
private TrieNode rootNode = new TrieNode();


    @PostConstruct // 当容器在实例化这个bean的时候,该方法就会被调用
 public void init(){

    try(
            InputStream is = this.getClass().getClassLoader().getResourceAsStream("sensitive-words.txt");
            BufferedReader reader = new BufferedReader(new InputStreamReader(is));
        ){

             String keyword;
             while ((keyword=reader.readLine())!=null){
                  // 添加到前缀树
                 this.addKeyword(keyword);
             }

       }catch (IOException e){
         logger.error("加载敏感词文件失败"+e.getMessage());
             }
       }

           // 将一个敏感词添加到前缀树中
        private void addKeyword(String keyword){
             TrieNode tempNode = rootNode;
            for (int i = 0; i <keyword.length(); i++) {
                char c = keyword.charAt(i);
                TrieNode subNode = tempNode.getSubNode(c);

              if (subNode == null){
                  // 初始化子节点
                  subNode = new TrieNode();
                  tempNode.addSubNode(c,subNode);
              }

                 // 指向子节点,进入下一轮循环
              tempNode = subNode;

                // 设置结束标识
              if (i == keyword.length()-1){
                   tempNode.setIskeywordEnd(true);
                  }
            }
        }

                   /**
                   *
                   * @param text 待过滤的文本
                   * @return  过滤后的文本
                   */
        public String filter(String text){
             if (StringUtils.isBlank(text)){
                  return null;
             }

              // 指针1
            TrieNode tempNode = rootNode;
               // 指针2
             int begin = 0;
                // 指针3
           int position = 0;
              // 结果
            StringBuilder sb = new StringBuilder();

            while (position < text.length()) {
                char c = text.charAt(position);

                // 跳过符号
                     if (isSymbol(c)) {
           // 若指针1处于根节点,将此符号计入结果,让指针2向下走一步
           if (tempNode == rootNode) {
               sb.append(c);
               begin++;
           }
           // 无论符号在开头或中间,指针3都向下走一步
           position++;
              continue;
          }

                     // 检查下级节点
          tempNode = tempNode.getSubNode(c);
          if (tempNode == null) {
              // 以begin开头的字符串不是敏感词
              sb.append(text.charAt(begin));
              // 进入下一个位置
              position = ++begin;
              // 重新指向根节点
              tempNode = rootNode;
          } else if (tempNode.isIskeywordEnd()) {
              // 发现敏感词,将begin~position字符串替换掉
              sb.append(REPLACEMENT);
              // 进入下一个位置
              begin = ++position;
              // 重新指向根节点
              tempNode = rootNode;
          } else {
              // 检查下一个字符
              position++;
                     }
                 }

           // 将最后一批字符计入结果
           sb.append(text.substring(begin));

           return sb.toString();
             }

               // 判断是否为符号
             private boolean isSymbol(Character c) {
                 // 0x2E80~0x9FFF 是东亚文字范围
                 return !CharUtils.isAsciiAlphanumeric(c) && (c < 0x2E80 || c > 0x9FFF);
             }


                 // 描述的是当前前缀树的某一个节点
               private class TrieNode{

                // 是否是最后一个节点元素
               private boolean iskeywordEnd= false;

                // 子节点(key是下级字符,value是下级节点类型)
                 private Map<Character,TrieNode> subNode = new HashMap<>();

                    public boolean isIskeywordEnd() {
                        return iskeywordEnd;
                    }

                    public void setIskeywordEnd(boolean iskeywordEnd) {
                        this.iskeywordEnd = iskeywordEnd;
                    }

                     // 添加子节点
                      public void addSubNode(Character c,TrieNode node){
                        subNode.put(c,node);
                   }

                       // 获取子节点
                      public TrieNode getSubNode(Character c){
                            return subNode.get(c);
                      }
                   }
                   }

最后编写测试代码如下检测过滤结果

                   package com.cd;

import com.cd.utils.SensitiveFilter;
import org.junit.Test;
import org.junit.runner.RunWith;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.boot.test.context.SpringBootTest;
import org.springframework.test.context.ContextConfiguration;
import org.springframework.test.context.junit4.SpringRunner;

@RunWith(SpringRunner.class)
@SpringBootTest
@ContextConfiguration(classes = SpringbootCommunityApplication.class)
public class SensitiveTest {

        @Autowired
     private SensitiveFilter sensitiveFilter;

         @Test
  public void testSensitiveFilter(){
             String text = "这里可以赌博,可以嫖娼,可以吸毒,可以开票,哈哈哈!";
                // 过滤之后的文本
             text = sensitiveFilter.filter(text);
             System.out.println(text);

             text = "这里可以☆赌☆博,可以嫖☆娼,哈哈哈";
             System.out.println(text);
         }
}

测试结果如下
在这里插入图片描述

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值