java判断敏感词_关于java中敏感词检测的一些总结

最新推荐文章于 2024-07-15 11:15:01 发布

CodeKing

最新推荐文章于 2024-07-15 11:15:01 发布

阅读量1.8k

点赞数

文章标签： java判断敏感词

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_34326484/article/details/114153925

版权

本文介绍了在Java中实现敏感词检测的三种方法，并详细讲解了选择将敏感词库载入内存作为缓存的方案，以及如何通过索引数组和关联数组提高检索效率，避免全量分词。此外，提供了敏感词检测类BanWordsUtil的实现代码，用于检查文本中是否存在敏感词。

摘要由CSDN通过智能技术生成

之前项目里客户提出一个需求，需要对系统中使用文本转化成语音发送的功能进行敏感词检测，禁止用户提交有敏感词的语音。通过查询各方面资料，整理了大概几种方案:

项目启动时对载入敏感词库作为缓存(一个大map，敏感词为key，取任意值为value)。对请求传入的文本分词，遍历分词结果，每个分词在map中查找，如果有值，则请求文本存在敏感词。

把敏感词库拼接成一个大的正则表达式，然后直接对文本匹配。

使用DFA(确定性有限状态自动机) DFA算法

对于方案选择，在网上参考了很多别人的代码。最简单的是方法2使用正则表达式，但是据说文本一长会有很大的效率问题。关于方法3DFA算法，由于在学校的时候算法课和编译原理没有认真听讲(惭愧= =||)，直接就忽略这方法了，所以最后还是决定使用方法1。

其实方法1还是有很多可以改进的方法，后来又参考了这个帖子12楼中的方法，使用索引数组加关联数组的方式，提高了检索效率,甚至连分词的步骤都省掉了。整个实现代码如下。

import org.apache.commons.lang.StringUtils;

import org.apache.commons.io.FileUtils;

import org.apache.commons.lang.StringUtils;

import java.io.IOException;

import java.util.ArrayList;

import java.util.HashMap;

import java.util.List;

import java.util.Map;

/**

* User: et

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
java判断敏感词_关于java中敏感词检测的一些总结

之前项目里客户提出一个需求，需要对系统中使用文本转化成语音发送的功能进行敏感词检测，禁止用户提交有敏感词的语音。通过查询各方面资料，整理了大概几种方案:项目启动时对载入敏感词库作为缓存(一个大map，敏感词为key，取任意值为value)。对请求传入的文本分词，遍历分词结果，每个分词在map中查找，如果有值，则请求文本存在敏感词。把敏感词库拼接成一个大的正则表达式，然后直接对文本匹配。使用DFA...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。