敏感字过滤方法(前缀树)

过滤敏感词的两种方法:

第一种:
当然利用replace直接进行替换,虽然这种方法可行,但是当遇到大量的用户输入时,就会相当消耗资源,在开发中并不可取
第二种:
前缀树过滤敏感词
这种方式查找效率非常的高,但有一个弊端,就是消耗内存,因为使用前缀树的方法,首先是要将敏感词写入树的一个个节点当中,这些敏感词从哪里来呢?
要么是将敏感词放入数据库中,要么就是将敏感词以文本形式放入MAVEN项目中的resource路径下,当然敏感词是有很多的,显然直接占用了内存资源,这就是典型的以空间换时间。
前缀树在词频统计,字符串排序,字符串检索都可以应用
当然,这个方法的使用前提是得学会前缀树才行,
下面是我自己画的,看不懂的可以移步那个链接大佬的文章

https://www.cnblogs.com/hd-zg/p/10591065.html
在这里插入图片描述

好了,下面是演示代码,也是跟老师学的,记录一下,嘿嘿!
首先我们需要根据前缀树特性,建立前缀树类,我们利用内部类的形式建立(因为只在外部类中使用,将限定符定为private就行),代码如下:

//敏感词过滤器
@Component
public class MGWordFilter {

//    首先定义前缀树
//    尔后将所有敏感词放到节点上
//    最后创建过滤器
 // 前缀树
    private class TrieNode {

        // 关键词结束标识(是否是最后的字)
        private boolean isKeywordEnd = false;

        // 子节点(key是下级字符,value是下级节点)
        private Map<Character, TrieNode> subNodes = new HashMap<>();

        public boolean isKeywordEnd() {
            return isKeywordEnd;
        }

        public void setKeywordEnd(boolean keywordEnd) {
            isKeywordEnd = keywordEnd;
        }

        // 添加子节点
        public void addSubNode(Character c, TrieNode node) {
            subNodes.put(c, node);
        }

        // 获取子节点
        public TrieNode getSubNode(Character c) {
            return subNodes.get(c);
        }

    }
    }

作为小德莫,对于敏感词,我是直接将这些敏感词放入txt文件中,然后直接放入maven项目下的resource目录下,这个地方需要注意一下,对于txt文件,他不会自动给你编译放入classes中,因为过会儿我们建立敏感词前缀树的时候会利用流的形式提前加载txt,所以我们需要自己clean一下,然后再compile一下,将txt文件加载进classes中。
下面的代码也都是在MGWordFilter 中写的:

  // 替换符
    private static final String REPLACEMENT = "***";

    // 根节点
    private TrieNode rootNode = new TrieNode();

    @PostConstruct
    public void init() {
//       将流写在try的小括号中,就不用写finally,会自动配置finally来关流
        try (
                InputStream is = this.getClass().getClassLoader().getResourceAsStream("MG-Words.txt");
                BufferedReader reader = new BufferedReader(new InputStreamReader(is));
        ) {
            String keyword;
            while ((keyword = reader.readLine()) != null) {
                // 添加到前缀树
                this.addKeyword(keyword);
            }
        } catch (IOException e) {
        }
    }

    // 将一个敏感词添加到前缀树中
    private void addKeyword(String keyword) {
//        将根节点定义为当前节点
        TrieNode tempNode = rootNode;

        for (int i = 0; i < keyword.length(); i++) {
//获取字符
            char c = keyword.charAt(i);
//            从当前节点中获取子节点
            TrieNode subNode = tempNode.getSubNode(c);
//          匹配是否有子节点
            if (subNode == null) {
                // 初始化子节点
                subNode = new TrieNode();
//              添加子节点
                tempNode.addSubNode(c, subNode);
            }

            // 指向子节点,进入下一轮循环
            tempNode = subNode;

            // 设置结束标识,如果i是最后一个字符,就将最后一个字符标记
            if (i == keyword.length() - 1) {
                tempNode.setKeywordEnd(true);
            }
        }
    }

下面我们可以开始写外部使用过滤器的方法了,所以将其设置为public以便外部访问,这时候我们需要写三个指针(假设定义为A,B,C),A指针在根节点,B和C指针放在需要过滤的外部输入的文字上面,B指针进行逐字停留,然后A指针从根节点划到子节点进行匹配,如果不是敏感词,指针A退回根节点,然后记录当前字符,指针B划到下一字符,指针C跟随指针B划到相同字符。指针A从根节点再次划到子节点,查看是否与指针B所指匹配,如果匹配,指针B不动,指针C划到下一字符,同时指针A划到下一子节点,查看是否为敏感词,如果是敏感词,查看是否是敏感词的最后一个词,如果是,就用替换符替换,如果不是继续进行下一字符的匹配,以此类推。

    public String filter(String text) {
        if (StringUtils.isBlank(text)) {
            return null;
        }

        // 指针1
        TrieNode tempNode = rootNode;
        // 指针2
        int begin = 0;
        // 指针3
        int position = 0;
        // 结果
        StringBuilder sb = new StringBuilder();
      //  通过画图可了解指针三是可以首先到达最后的,所以相对于指针二,利用指针三来判断可以提高效率
        while (position < text.length()) {
            char c = text.charAt(position);

            // 跳过符号
            if (isSymbol(c)) {
                // 若指针1处于根节点,将此符号计入结果,让指针2向下走一步
                if (tempNode == rootNode) {
                    sb.append(c);
                    begin++;
                }
                // 无论符号在开头或中间,指针3都向下走一步
                position++;
                continue;
            }

            // 当不等于符号时,检查下级节点
            tempNode = tempNode.getSubNode(c);
            if (tempNode == null) {
                // 以begin开头的字符串不是敏感词
                sb.append(text.charAt(begin));
                // 进入下一个位置
                position = ++begin;
                // 重新指向根节点
                tempNode = rootNode;
            } else if (tempNode.isKeywordEnd()) {
                // 发现敏感词,将begin~position字符串替换掉
                sb.append(REPLACEMENT);
                // 进入下一个位置
                begin = ++position;
                // 重新指向根节点
                tempNode = rootNode;
            } else {
                // 检查下一个字符
                position++;
            }
        }

        // 将最后一批字符计入结果
        sb.append(text.substring(begin));

        return sb.toString();
    }

    // 判断是否为符号
    private boolean isSymbol(Character c) {
        // 0x2E80~0x9FFF 是东亚文字范围
        return !CharUtils.isAsciiAlphanumeric(c) && (c < 0x2E80 || c > 0x9FFF);
    }

下面是测试代码:

@RunWith(SpringRunner.class)
@SpringBootTest
@ContextConfiguration(classes = Application.class)
public class MgWordTest {

    @Autowired
    private MGWordFilter mgWordFilter;

    @Test
    public void TestMG(){
        String text = "⭐我⭐丢⭐,⭐你怎⭐么傻了⭐吧⭐唧⭐的,你是3⭐B";
        String filter = mgWordFilter.filter(text);
        System.out.println(filter);
    }
}

结果:
在这里插入图片描述

  • 11
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 10
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

折翼、csf

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值