【开发经验】布隆过滤去进行敏感词过滤


一、敏感词过滤思路

        使得互联网纯净,肯定会遇到敏感词过滤,如何认定这个词是敏感词,就尤为重要。比如: 黄色可不可以认为是一个敏感词,但是天气预报中,也有黄色警报呀。我操这个肯定是了,但是我 操中间加个空格呢?加了空格就增加了检测的难度。检测的方式有很多种,使用布隆过滤器可以在简单的情况下,实现快速过滤。

1.分词

如果你好,我要发布一个炸药配方的视频,需要先对其进行分词
[你好/l, ,/w, 欢迎/v, 使用/v, HanLP/nx, 汉语/nz, 处理/v, 包/v, !/w]

2.比对

敏感词库中比如有炸药|枪支等敏感词。通过hash进行比对即可。这种方式比较简单,但是弊端也很明显,可以通过中间夹杂字符或者空格来绕过,比如炸@药或者炸!药,很容易绕过,不过也是可以满足很多场景。

二、代码示例

1.分词示例

引入HanLP工具包来进行分词。

HanLP是一系列模型与算法组成的NLP工具包,目标是普及自然语言处理在生产环境中的应用,可以实现中文分词,词性标注,命名实体识别,关键词提取等功能。
maven添加配置文件

 <dependency>
            <groupId>com.google.guava</groupId>
            <artifactId>guava</artifactId>
            <version>28.2-jre</version>
 </dependency>
public class Test {

    public static void main(String[] args) {
        System.out.println(HanLP.segment("你好,我要发布一个炸药配方的视频"));
    }
    /**
     * [你好/l, ,/w, 我/r, 要/v, 发布/v, 一个/mq, 炸药/n, 配方/n, 的/uj, 视频/n]
     */
}

2.验证

        分词结束之后,就是通过分词后的信息与敏感词进行比对。
比如认定炸药是不允许发布的词,则需要将所有的词进行比对即可。
最容易想到的是通过Hashset保存敏感词集合,通过contains方法,判断词是否为敏感词,但是Hashset是通过HashMap来处理的,如果数据量很多,几万条数据插入HashMap中,会使用很多内存。使用布隆过滤器可以更好的减少内存的使用。布隆过滤器详解

	<dependency>
            <groupId>com.google.guava</groupId>
            <artifactId>guava</artifactId>
            <version>28.2-jre</version>
     </dependency>

import com.google.common.base.Charsets;
import com.google.common.hash.BloomFilter;
import com.google.common.hash.Funnel;
import com.google.common.hash.PrimitiveSink;
import com.hankcs.hanlp.dictionary.CustomDictionary;
import com.hankcs.hanlp.seg.Dijkstra.DijkstraSegment;
import com.hankcs.hanlp.seg.Segment;
import com.hankcs.hanlp.seg.common.Term;

import java.io.*;
import java.util.List;

public class BloomFilterTest {
    private BloomFilter<String> configuredFilter;

    private final BloomFilter<String> filter = BloomFilter.create(new Funnel<String>() {
        private static final long serialVersionUID = 1L;
        public void funnel(String arg0, PrimitiveSink arg1) {

            arg1.putString(arg0, Charsets.UTF_8);
        }
    }, 1024*1024*32);
    /**
     * 读取带敏感词的布隆过滤器
     *
     * @return
     * @throws IOException
     */
    public BloomFilter<String> getSensitiveWordsFilter() throws IOException {
        InputStreamReader read = null;
        BufferedReader bufferedReader = null;
        //加载敏感词库
        /** 里面的信息
         * 出售雷管
         * 炸药
         * 炸药
         * 出售炸药
         * 出售炸药 电话
         * 制作火药配方
         * 炸药出售
         * .....此处省略
         */
        read = new InputStreamReader(new FileInputStream(new File("C:\\Users\\archermind\\Desktop\\ml-1m\\SensitiveWords.txt")));
        bufferedReader = new BufferedReader(read);
        for (String txt = null; (txt = bufferedReader.readLine()) != null; ) {
            // 将词库信息添加到分词词库
            // 如果敏感词库中有  炸药配方  但是分词词库只有 炸药|配方  的话
            // 这样会对炸药配方进行分词,无法匹配到  炸药配方
            CustomDictionary.add(txt);
            // 敏感词库put到布隆过滤器中
            filter.put(txt);
        }
        this.configuredFilter = filter;
        return filter;
    }
    /**
     * 判断一段文字中,是否包含敏感词
     */
    public Boolean segmentSensitiveFilterPassed(String[] segments) {
        if(configuredFilter == null){
            try {
                getSensitiveWordsFilter();
            }catch (IOException e){
                e.printStackTrace();
            }
        }
        Segment shortestSegment = new DijkstraSegment().enableCustomDictionary(true);
        for(String segment :segments){
            List<Term> termList =  shortestSegment.seg(segment);
            for (Term term :termList){
                // 如果布隆过滤器中找到了对应的词,则认为敏感检测不通过
                if(configuredFilter.mightContain(term.word)){
                     System.out.println("检测到敏感词:"+term.word);
                    throw new RuntimeException("检测到敏感词");
                }
            }
        }
        return true;
    }
    public static void main(String[] args) {
        BloomFilterTest service = new BloomFilterTest();
        service.segmentSensitiveFilterPassed(new String[]{"你好,我要发布一个炸药配方的小视频"});
    }
}


敏感词库下载
https://github.com/jkiss/sensitive-words
https://github.com/tenstone/textfilter/blob/master/keywords

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Redisson布隆过滤器是基于Redis实现的Java分布式布隆过滤器。它可以在多个JVM节点或其他进程通过相同的KEY获取到布隆过滤器布隆过滤器的主要功能是判断某个元素是否存在于容器,因此非常适合解决缓存穿透问题和检查数据是否重复的场景。使用Redisson布隆过滤器时,需要单独开一个定时任务来初始化布隆过滤器的数据,并在删除或更新数据时重新刷新布隆过滤器。虽然使用布隆过滤器可能稍显麻烦,但可以使用Redis的Set类型来替代。\[1\]\[2\] 在代码示例,可以看到使用Redisson布隆过滤器的示例代码。首先通过redisson.getBloomFilter方法获取布隆过滤器实例,然后使用tryInit方法初始化布隆过滤器的容量和误差率。接下来可以使用add方法向布隆过滤器添加元素,使用contains方法判断元素是否存在于布隆过滤器。\[2\]\[3\] 总结来说,Redisson布隆过滤器是一种解决缓存穿透和检查数据重复的有效工具,但在使用时需要注意初始化和刷新布隆过滤器的操作。 #### 引用[.reference_title] - *1* *2* *3* [从头开始学Redisson--------布隆过滤器](https://blog.csdn.net/yanluandai1985/article/details/104848454)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

叁滴水

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值