Java实现DFA算法对敏感词、广告词过滤功能

最新推荐文章于 2024-02-01 09:43:36 发布

VIP文章 Andyzty

最新推荐文章于 2024-02-01 09:43:36 发布

阅读量2.1w

点赞数 4

分类专栏： JavaEE开发 Java开发笔记文章标签：敏感词过滤广告词过滤 DFA算法实现大小写全半角实现过滤 java敏感词过滤

本文链接：https://blog.csdn.net/fengshizty/article/details/52373005

版权

一、前言

开发中经常要处理用户一些文字的提交，所以涉及到了敏感词过滤的功能，参考资料中DFA有穷状态机算法的实现，创建有向图。完成了对敏感词、广告词的过滤，而且效率较好，所以分享一下。

具体实现：

1、匹配大小写过滤

2、匹配全角半角过滤

3、匹配过滤停顿词过滤。

4、敏感词重复词过滤。

例如：

支持如下类型类型过滤检测：
fuck 全小写
FuCk 大小写
ｆｕｃｋ全角半角
f!!!u&c ###k 停顿词
fffuuuucccckkk 重复词

二、代码实现

其目录结构如下：

其中resources资源目录中：

stopwd.txt ：停顿词，匹配时间直接过滤。

wd.txt：敏感词库。

1、WordFilter敏感词过滤类

package org.andy.sensitivewdfilter;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.util.ArrayLi

最低0.47元/天解锁文章

Andyzty

关注

4
点赞
踩
47

收藏

觉得还不错? 一键收藏
22
评论
Java实现DFA算法对敏感词、广告词过滤功能

开发中经常要处理用户一些文字的提交，所以涉及到了敏感词过滤的功能，参考资料中DFA有穷状态机算法的实现，创建有向图。完成了对敏感词、广告词的过滤，而且效率较好，所以分享一下。具体实现： 1、匹配大小写过滤 2、匹配全角半角过滤 3、匹配过滤停顿词过滤。 4、敏感词重复词过滤。
复制链接

扫一扫