敏感字过滤方法(前缀树)

最新推荐文章于 2023-01-02 16:29:19 发布

折翼、csf

最新推荐文章于 2023-01-02 16:29:19 发布

阅读量1.1k

点赞数 11

分类专栏：记录日常文章标签： java spring

本文链接：https://blog.csdn.net/qq_42956993/article/details/109491556

版权

记录日常专栏收录该内容

27 篇文章 2 订阅

订阅专栏

过滤敏感词的两种方法:

第一种:
当然利用replace直接进行替换，虽然这种方法可行，但是当遇到大量的用户输入时，就会相当消耗资源，在开发中并不可取
第二种:
前缀树过滤敏感词
这种方式查找效率非常的高，但有一个弊端，就是消耗内存，因为使用前缀树的方法，首先是要将敏感词写入树的一个个节点当中，这些敏感词从哪里来呢？
要么是将敏感词放入数据库中，要么就是将敏感词以文本形式放入MAVEN项目中的resource路径下，当然敏感词是有很多的，显然直接占用了内存资源，这就是典型的以空间换时间。
前缀树在词频统计，字符串排序，字符串检索都可以应用
当然，这个方法的使用前提是得学会前缀树才行,
下面是我自己画的，看不懂的可以移步那个链接大佬的文章

https://www.cnblogs.com/hd-zg/p/10591065.html

好了，下面是演示代码，也是跟老师学的，记录一下，嘿嘿！
首先我们需要根据前缀树特性，建立前缀树类，我们利用内部类的形式建立(因为只在外部类中使用，将限定符定为private就行)，代码如下：

//敏感词过滤器
@Component
public class MGWordFilter {

//    首先定义前缀树
//    尔后将所有敏感词放到节点上
//    最后创建过滤器
 // 前缀树
    private class TrieNode {

        // 关键词结束标识(是否是最后的字)
        private boolean isKeywordEnd = false;

        // 子节点(key是下级字符,value是下级节点)
        private Map<Character, TrieNode> subNodes = new HashMap<>();

        public boolean isKeywordEnd() {
            return isKeywordEnd;
        }

        public void setKeywordEnd(boolean keywordEnd) {
            isKeywordEnd = keywordEnd;
        }

        // 添加子节点
        public void addSubNode(Character c, TrieNode node) {
            subNodes.put(c, node);
        }

        // 获取子节点
        public TrieNode getSubNode(Character c) {
            return subNodes.get(c);
        }

    }
    }

作为小德莫，对于敏感词，我是直接将这些敏感词放入txt文件中，然后直接放入maven项目下的resource目录下，这个地方需要注意一下，对于txt文件，他不会自动给你编译放入classes中，因为过会儿我们建立敏感词前缀树的时候会利用流的形式提前加载txt，所以我们需要自己clean一下，然后再compile一下，将txt文件加载进classes中。
下面的代码也都是在MGWordFilter 中写的：

  // 替换符
    private static final String REPLACEMENT = "***";

    // 根节点
    private TrieNode rootNode = new TrieNode();

    @PostConstruct
    public void init() {
//       将流写在try的小括号中，就不用写finally,会自动配置finally来关流
        try (
                InputStream is = this.getClass().getClassLoader().getResourceAsStream("MG-Words.txt");
                BufferedReader reader = new BufferedReader(new InputStreamReader(is));
        ) {
            String keyword;
            while ((keyword = reader.readLine()) != null) {
                // 添加到前缀树
                this.addKeyword(keyword);
            }
        } catch (IOException e) {
        }
    }

    // 将一个敏感词添加到前缀树中
    private void addKeyword(String keyword) {
//        将根节点定义为当前节点
        TrieNode tempNode = rootNode;

        for (int i = 0; i < keyword.length(); i++) {
//获取字符
            char c = keyword.charAt(i);
//            从当前节点中获取子节点
            TrieNode subNode = tempNode.getSubNode(c);
//          匹配是否有子节点
            if (subNode == null) {
                // 初始化子节点
                subNode = new TrieNode();
//              添加子节点
                tempNode.addSubNode(c, subNode);
            }

            // 指向子节点,进入下一轮循环
            tempNode = subNode;

            // 设置结束标识，如果i是最后一个字符，就将最后一个字符标记
            if (i == keyword.length() - 1) {
                tempNode.setKeywordEnd(true);
            }
        }
    }

下面我们可以开始写外部使用过滤器的方法了，所以将其设置为public以便外部访问，这时候我们需要写三个指针（假设定义为A,B,C），A指针在根节点，B和C指针放在需要过滤的外部输入的文字上面，B指针进行逐字停留，然后A指针从根节点划到子节点进行匹配，如果不是敏感词，指针A退回根节点，然后记录当前字符，指针B划到下一字符，指针C跟随指针B划到相同字符。指针A从根节点再次划到子节点，查看是否与指针B所指匹配，如果匹配，指针B不动，指针C划到下一字符，同时指针A划到下一子节点，查看是否为敏感词，如果是敏感词，查看是否是敏感词的最后一个词，如果是，就用替换符替换，如果不是继续进行下一字符的匹配，以此类推。

    public String filter(String text) {
        if (StringUtils.isBlank(text)) {
            return null;
        }

        // 指针1
        TrieNode tempNode = rootNode;
        // 指针2
        int begin = 0;
        // 指针3
        int position = 0;
        // 结果
        StringBuilder sb = new StringBuilder();
      //  通过画图可了解指针三是可以首先到达最后的，所以相对于指针二，利用指针三来判断可以提高效率
        while (position < text.length()) {
            char c = text.charAt(position);

            // 跳过符号
            if (isSymbol(c)) {
                // 若指针1处于根节点,将此符号计入结果,让指针2向下走一步
                if (tempNode == rootNode) {
                    sb.append(c);
                    begin++;
                }
                // 无论符号在开头或中间,指针3都向下走一步
                position++;
                continue;
            }

            // 当不等于符号时，检查下级节点
            tempNode = tempNode.getSubNode(c);
            if (tempNode == null) {
                // 以begin开头的字符串不是敏感词
                sb.append(text.charAt(begin));
                // 进入下一个位置
                position = ++begin;
                // 重新指向根节点
                tempNode = rootNode;
            } else if (tempNode.isKeywordEnd()) {
                // 发现敏感词,将begin~position字符串替换掉
                sb.append(REPLACEMENT);
                // 进入下一个位置
                begin = ++position;
                // 重新指向根节点
                tempNode = rootNode;
            } else {
                // 检查下一个字符
                position++;
            }
        }

        // 将最后一批字符计入结果
        sb.append(text.substring(begin));

        return sb.toString();
    }

    // 判断是否为符号
    private boolean isSymbol(Character c) {
        // 0x2E80~0x9FFF 是东亚文字范围
        return !CharUtils.isAsciiAlphanumeric(c) && (c < 0x2E80 || c > 0x9FFF);
    }

下面是测试代码：

@RunWith(SpringRunner.class)
@SpringBootTest
@ContextConfiguration(classes = Application.class)
public class MgWordTest {

    @Autowired
    private MGWordFilter mgWordFilter;

    @Test
    public void TestMG(){
        String text = "⭐我⭐丢⭐，⭐你怎⭐么傻了⭐吧⭐唧⭐的，你是3⭐B";
        String filter = mgWordFilter.filter(text);
        System.out.println(filter);
    }
}

结果：
在这里插入图片描述

折翼、csf

关注

11
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
10
评论
敏感字过滤方法(前缀树)

过滤敏感词的两种方法:** 第一种:当然利用replace直接进行替换，虽然这种方法可行，但是当遇到大量的用户输入时，就会相当消耗资源，在开发中并不可取**** 第二种:前缀树过滤敏感词**** 这种方式查找效率非常的高，但有一个弊端，就是消耗内存，因为使用前缀树的方法，首先是要将敏感词写入树的一个个节点当中，这些敏感词从哪里来呢？要么是将敏感词放入数据库中，要么就是将敏感词以文本形式放入MAVEN项目中的resource路径下，当然敏感词是有很多的，显然直接占用了内存资源
复制链接

扫一扫