Java敏感词过滤、java关键词过滤工具包原理

ranjio_z

已于 2022-03-23 13:55:23 修改

阅读量6.7k

点赞数 1

文章标签： java 工具算法

于 2011-05-08 11:22:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ranjio_z/article/details/6403212

版权

原理：基于多叉树的查找。

第一步：把敏感词读入搜索多叉树中，

树结构：

第二步，对需过滤的句子进行逐字匹配：

比如句子：解放了全中国

1、记录起始位置start=0，读到了“解”，匹配了搜索树中起始节点的的“解”字；

2、继续读入“放”，又匹配了搜索树中的下一节点的“放”字，此时其子节点的isEnd为true，即当前为一敏感词的结束位，则把当前匹配长度2放入临时变量length；

3、继续第2步，直到map中找不到相匹配的字；

4、如果length>0把从start到start+length的字符替换为“*”，从start+length重新开始第1步；

5、如果length=0，从start+1开始第1步。

本算法对纯文本匹配执行效率：5000字35毫秒

　　　　　　　　　　　　　　　　　　　　　　　　　张人杰　2011.4.3

源码地址：GitHub - AlexZhangrj1981/sensitive-words-filter

下载地址：ranjio_z的资源

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。