使用前缀树算法实现过滤敏感词汇

我哪会这个啊

已于 2023-04-03 12:08:46 修改

阅读量581

点赞数 1

分类专栏： java基础文章标签： java filter 后端

于 2020-12-28 19:45:26 首次发布

本文链接：https://blog.csdn.net/qq_45243783/article/details/111873116

版权

java基础专栏收录该内容

7 篇文章 0 订阅

订阅专栏

先上张图片来简单说明一下简单说一下前缀树的特点
在这里插入图片描述
前缀树过滤敏感词运作原理图如下

3.创建一个springboot项目，在resource目录下面定义一个敏感词汇的文本，这里简单取个名字叫做sensitive-word.txt,文本里面的敏感词汇如下

4.新建一个工具包，里面实现敏感词汇过滤的代码如下

        package com.cd.utils;

import org.apache.commons.lang3.CharUtils;
import org.apache.commons.lang3.StringUtils;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.springframework.stereotype.Component;

import javax.annotation.PostConstruct;
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.util.HashMap;
import java.util.Map;

/**
*  敏感词过滤器
*/
   @Component
public class SensitiveFilter {
       
private static final Logger logger = LoggerFactory.getLogger(SensitiveFilter.class);

       // 替换符
private static final String REPLACEMENT = "***";

      // 初始化根节点
private TrieNode rootNode = new TrieNode();


    @PostConstruct // 当容器在实例化这个bean的时候,该方法就会被调用
 public void init(){

    try(
            InputStream is = this.getClass().getClassLoader().getResourceAsStream("sensitive-words.txt");
            BufferedReader reader = new BufferedReader(new InputStreamReader(is));
        ){

             String keyword;
             while ((keyword=reader.readLine())!=null){
                  // 添加到前缀树
                 this.addKeyword(keyword);
             }

       }catch (IOException e){
         logger.error("加载敏感词文件失败"+e.getMessage());
             }
       }

           // 将一个敏感词添加到前缀树中
        private void addKeyword(String keyword){
             TrieNode tempNode = rootNode;
            for (int i = 0; i <keyword.length(); i++) {
                char c = keyword.charAt(i);
                TrieNode subNode = tempNode.getSubNode(c);

              if (subNode == null){
                  // 初始化子节点
                  subNode = new TrieNode();
                  tempNode.addSubNode(c,subNode);
              }

                 // 指向子节点，进入下一轮循环
              tempNode = subNode;

                // 设置结束标识
              if (i == keyword.length()-1){
                   tempNode.setIskeywordEnd(true);
                  }
            }
        }

                   /**
                   *
                   * @param text 待过滤的文本
                   * @return  过滤后的文本
                   */
        public String filter(String text){
             if (StringUtils.isBlank(text)){
                  return null;
             }

              // 指针1
            TrieNode tempNode = rootNode;
               // 指针2
             int begin = 0;
                // 指针3
           int position = 0;
              // 结果
            StringBuilder sb = new StringBuilder();

            while (position < text.length()) {
                char c = text.charAt(position);

                // 跳过符号
                     if (isSymbol(c)) {
           // 若指针1处于根节点,将此符号计入结果,让指针2向下走一步
           if (tempNode == rootNode) {
               sb.append(c);
               begin++;
           }
           // 无论符号在开头或中间,指针3都向下走一步
           position++;
              continue;
          }

                     // 检查下级节点
          tempNode = tempNode.getSubNode(c);
          if (tempNode == null) {
              // 以begin开头的字符串不是敏感词
              sb.append(text.charAt(begin));
              // 进入下一个位置
              position = ++begin;
              // 重新指向根节点
              tempNode = rootNode;
          } else if (tempNode.isIskeywordEnd()) {
              // 发现敏感词,将begin~position字符串替换掉
              sb.append(REPLACEMENT);
              // 进入下一个位置
              begin = ++position;
              // 重新指向根节点
              tempNode = rootNode;
          } else {
              // 检查下一个字符
              position++;
                     }
                 }

           // 将最后一批字符计入结果
           sb.append(text.substring(begin));

           return sb.toString();
             }

               // 判断是否为符号
             private boolean isSymbol(Character c) {
                 // 0x2E80~0x9FFF 是东亚文字范围
                 return !CharUtils.isAsciiAlphanumeric(c) && (c < 0x2E80 || c > 0x9FFF);
             }


                 // 描述的是当前前缀树的某一个节点
               private class TrieNode{

                // 是否是最后一个节点元素
               private boolean iskeywordEnd= false;

                // 子节点（key是下级字符，value是下级节点类型）
                 private Map<Character,TrieNode> subNode = new HashMap<>();

                    public boolean isIskeywordEnd() {
                        return iskeywordEnd;
                    }

                    public void setIskeywordEnd(boolean iskeywordEnd) {
                        this.iskeywordEnd = iskeywordEnd;
                    }

                     // 添加子节点
                      public void addSubNode(Character c,TrieNode node){
                        subNode.put(c,node);
                   }

                       // 获取子节点
                      public TrieNode getSubNode(Character c){
                            return subNode.get(c);
                      }
                   }
                   }

最后编写测试代码如下检测过滤结果

                   package com.cd;

import com.cd.utils.SensitiveFilter;
import org.junit.Test;
import org.junit.runner.RunWith;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.boot.test.context.SpringBootTest;
import org.springframework.test.context.ContextConfiguration;
import org.springframework.test.context.junit4.SpringRunner;

@RunWith(SpringRunner.class)
@SpringBootTest
@ContextConfiguration(classes = SpringbootCommunityApplication.class)
public class SensitiveTest {

        @Autowired
     private SensitiveFilter sensitiveFilter;

         @Test
  public void testSensitiveFilter(){
             String text = "这里可以赌博，可以嫖娼，可以吸毒，可以开票，哈哈哈！";
                // 过滤之后的文本
             text = sensitiveFilter.filter(text);
             System.out.println(text);

             text = "这里可以☆赌☆博，可以嫖☆娼，哈哈哈";
             System.out.println(text);
         }
}

测试结果如下
在这里插入图片描述

我哪会这个啊

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
使用前缀树算法实现过滤敏感词汇

先上张图片来简单说明一下简单说一下前缀树的特点前缀树过滤敏感词运作原理图如下3.创建一个springboot项目，在resource目录下面定义一个敏感词汇的文本，这里简单取个名字叫做sensitive-word.txt,文本里面的敏感词汇如下4.新建一个工具包，里面实现敏感词汇过滤的代码如下 package com.cd.utils;import org.apache.commons.lang3.CharUtils;import org.apache.commons.la
复制链接

扫一扫