高效Java敏感词、关键词过滤工具包_过滤非法词句

原创 2011年04月03日 12:18:00

使用说明:
1、本工具包由北京师范大学计算机系 张人杰 开发制作 基于多叉树的查找,任何问题请联系:
alex.zhangrj@hotmail.com
2、工具包自带敏感词词库,第一次调用时读入词库,故第一次调用时间可能较长,在类加载后普通pc机上html过滤5000字在80毫秒左右,纯文本35毫秒左右。
3、如需自定义词库,将jar包考入WEB-INF工程的lib目录,在WEB-INF/classes目录下建一个utf-8的words.dict文本文件,在该文件中以“关键字=级别”的方式写入,比如:
中国共产党=4
中国人民=1
0为级别最小,过滤后返回原字符串中出现的最高级别
调用方法:WordFilterUtil.filterHtml(str,'*');

 

 

下载地址:http://download.csdn.net/user/ranjio_z

Java实现敏感词过滤

敏感词、文字过滤是一个网站必不可少的功能,如何设计一个好的、高效的过滤算法是非常有必要的。前段时间我一个朋友(马上毕业,接触编程不久)要我帮他看一个文字过滤的东西,它说检索效率非常慢。我把它程序拿过来...
  • chenssy
  • chenssy
  • 2014年05月25日 15:42
  • 87516

关键词过滤(脏字过滤)Trie Tree(Hash)和FastCheck两种过滤方式java版本

在做关键词过滤的时候,搜索到yeerh
  • workwithwebis3w
  • workwithwebis3w
  • 2014年07月30日 10:51
  • 4487

java 关键字过滤

以下实现对关键字的过滤: 两个个文件words.properties和KeyFilter.java; 1、words.properties配置关键字的配置文件;内容如下: name1 ...
  • linfssay
  • linfssay
  • 2012年05月24日 17:20
  • 2668

Java敏感词过滤、java关键词过滤工具包原理

摘要:基于多叉树查找的Java敏感词过滤、java关键词过滤工具包原理 本算法对纯文本匹配执行效率:5000字35毫秒...
  • ranjio_z
  • ranjio_z
  • 2011年05月08日 11:22
  • 5151

Java敏感词过滤、java关键词过滤工具包_过滤非法词句

  • 2011年04月02日 11:28
  • 23KB
  • 下载

高效关键字过滤java源码

  • 2011年08月12日 13:27
  • 4KB
  • 下载

过滤关键字[JAVA版]

【KeywordFilter.java】 import java.io.InputStream; import java.util.Enumeration; import java.util.Pro...
  • xia9527
  • xia9527
  • 2013年01月30日 09:18
  • 404

Java 实现文章汉字关键词(违禁词)识别2.0

说明:2.0相对1.0的算法改进 首先1.0是用父子节点树来保存树的,一个父对应多个子节点,这就不可避免要使用List来保存子节点,由于List的大小有限制,在1.0的时候加载的数据小于10万条,...
  • xianhujianke
  • xianhujianke
  • 2016年03月29日 16:54
  • 1225

Java实现DFA算法对敏感词、广告词过滤功能

开发中经常要处理用户一些文字的提交,所以涉及到了敏感词过滤的功能,参考资料中DFA有穷状态机算法的实现,创建有向图。完成了对敏感词、广告词的过滤,而且效率较好,所以分享一下。 具体实现: 1、匹配...
  • fengshizty
  • fengshizty
  • 2016年08月31日 11:47
  • 7357

Java实现敏感词过滤

敏感词、文字过滤是一个网站必不可少的功能,如何设计一个好的、高效的过滤算法是非常有必要的。前段时间我一个朋友(马上毕业,接触编程不久)要我帮他看一个文字过滤的东西,它说检索效率非常慢。我把它程序拿过来...
  • Kobe561
  • Kobe561
  • 2017年10月27日 14:18
  • 214
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:高效Java敏感词、关键词过滤工具包_过滤非法词句
举报原因:
原因补充:

(最多只允许输入30个字)