java 敏感词检测_关于java中敏感词检测的一些总结

之前项目里客户提出一个需求,需要对系统中使用文本转化成语音发送的功能进行敏感词检测,禁止用户提交有敏感词的语音。通过查询各方面资料,整理了大概几种方案:

项目启动时对载入敏感词库作为缓存(一个大map,敏感词为key,取任意值为value)。 对请求传入的文本分词,遍历分词结果,每个分词在map中查找,如果有值,则请求文本存在敏感词。

把敏感词库拼接成一个大的正则表达式,然后直接对文本匹配。

使用DFA(确定性有限状态自动机) DFA算法

对于方案选择,在网上参考了很多别人的代码。最简单的是方法2使用正则表达式,但是据说文本一长会有很大的效率问题。关于方法3DFA算法,由于在学校的时候算法课和编译原理没有认真听讲(惭愧= =||),直接就忽略这方法了,所以最后还是决定使用方法1。 其实方法1还是有很多可以改进的方法,后来又参考了这个帖子12楼中的方法,使用索引数组加关联数组的方式,提高了检索效率,甚至连分词的步骤都省掉了。整个实现代码如下。

package com.ffcs.cbox.common.utils;

import org.apache.commons.io.FileUtils;

import org.apache.commons.lang.StringUtils;

import java.io.IOException;

import java.util.ArrayList;

import java.util.HashMap;

import java.util.List;

import java.util.Map;

/**

* User: eternity

*

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Java 敏感词检测可以通过多种方式实现,以下是一种简单的方法: 1. 构建敏感词库:将敏感词以数组、列表或哈希表的形式存储起来。可以手动添加敏感词,也可以从文件或数据库加载。 2. 实现敏感词检测方法:编写一个方法,接受待检测的文本作为参数,返回是否包含敏感词。 3. 遍历文本:将待检测的文本按字符或单词进行遍历。 4. 匹配敏感词:对于每个字符或单词,与敏感词敏感词逐一比较。可以使用字符串匹配算法,如KMP算法或AC自动机算法,提高匹配效率。 5. 返回结果:如果匹配到敏感词,则返回true;否则,返回false。 下面是一个简单的示例代码: ```java import java.util.ArrayList; import java.util.List; public class SensitiveWordFilter { private List<String> sensitiveWords; public SensitiveWordFilter() { sensitiveWords = new ArrayList<>(); // 添加敏感词敏感词库 sensitiveWords.add("敏感词1"); sensitiveWords.add("敏感词2"); sensitiveWords.add("敏感词3"); } public boolean hasSensitiveWord(String text) { for (String word : sensitiveWords) { if (text.contains(word)) { return true; } } return false; } public static void main(String[] args) { SensitiveWordFilter filter = new SensitiveWordFilter(); String text = "这是一段包含敏感词的文本"; boolean hasSensitiveWord = filter.hasSensitiveWord(text); System.out.println("是否包含敏感词:" + hasSensitiveWord); } } ``` 这只是一个简单的实现,实际应用可能需要处理更复杂的情况,如多个敏感词之间的空格、大小写等。可以根据具体需求进行适当修改和优化。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值