《高效精准》敏感字&词过滤

标签: 算法 敏感字词过滤
3440人阅读 评论(10) 收藏 举报
分类:
在网上看到的大部分采用DFA算法,我看了之后感觉做得有些复杂了,DFA实现思路如下:
1:DFA采用Map的hash机制,将敏感词单个拆分,以第1个字符为key,其他值依旧使用map相连,形成了大map套用小map..

2:遍历需要过滤的字符串,获取每一个字符,根据get(key)来检测是否为敏感词。

我最开始是想到用正则来提取数据中的敏感数据,然后获取敏感字所在索引位置,再利用StringBuilder.replace(start,end,str)来替换,但经过测试发现使用正则有2个问题:
1:因为是正则要整串匹配,所以效率慢,同样3318个字符,平均在50毫秒以上
2:和敏感词与正则数据会产生冲突
所以就选择另一种思路:
1:遍历敏感词库,采用indexOf()来循环查询信息中是否含有此敏感数据
2:利用hashMap的来记录敏感在信息的key(起始位置)和最大的value(结束位置)
3:然后再遍历hashMap,得到每一组的start,end  再使用StringBuilder.replace(start,end,str)来替换敏感信息

4:被过滤的信息有3318个字符,平均在3~5毫秒内完成。

测试代码

   

	public void demo3(){
		SensitiveWord sw = new SensitiveWord("CensorWords1.txt");
		sw.InitializationWork();
		long startNumer = System.currentTimeMillis();
		String str = "太多的伤yuming感情怀也许只局限于饲养基地 荧幕中的情节,主人公尝试着去用某种方式渐渐的很潇洒地释自杀指南怀那些自己经历的伤感。"
				+ "然后法轮功 我们的扮演的角色就是跟随着主人yum公的喜红客联盟 怒于饲养基地 荧幕中的情节,主人公尝试着去用某种方式渐渐的很潇洒地释自杀指南怀那些自己经历的伤感。"
				+ "然后法轮功 我们的扮演的角色就是跟随着主人yum公的喜红客联盟 怒哀20于饲养基地 荧幕中的情节,主人公尝试着去用某种方式渐渐的很潇洒地释自杀指南怀那些自己经历的伤感。"
				+ "然后法轮功 我们的扮演的角色就是跟随着主人yum公的喜红客联盟 怒哀20哀2015/4/16 20152015/4/16乐而过于牵强的把自己的情感也附加于银幕情节中,然后感动就流泪,"
				+ "关, 人, 流, 电, 发, 情, 太, 限, 法轮功, 个人, 经, 色, 许, 公, 动, 地, 方, 基, 在, 上, 红, 强, 自杀指南, 制, 卡, 三级片, 一, 夜, 多, 手机, 于, 自,"
				+ "难过就躺在某一个人的怀里尽情的阐述心扉或者手机卡复制器一个人一杯红酒一部电影在夜三级片 深人静的晚上,关上电话静静的发呆着。";
		System.out.println("被检测字符长度:"+str.length());
		str = sw.filterInfo(str);
		long endNumber = System.currentTimeMillis();
		System.out.println("耗时(毫秒):"+(endNumber-startNumer));
		System.out.println("过滤之后:"+str);
	}

运行结果

    

代码如下:
       
package com.amov.utils;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.UnsupportedEncodingException;
import java.util.ArrayList;
import java.util.Collection;
import java.util.HashMap;
import java.util.List;

/**
 *  敏感词过滤 工具类
 *  
 * @author hubiao
 * @version 0.1
 * @CreateDate 2015年4月16日 15:28:32
 */
public class SensitiveWord {
	private StringBuilder replaceAll;//初始化
	private String encoding = "UTF-8";
	private String replceStr = "*";
	private int replceSize = 500;
	private String fileName = "CensorWords.txt";
	private List<String> arrayList;
	
	/**
	 * 文件要求路径在src或resource下,默认文件名为CensorWords.txt
	 * @param fileName 词库文件名(含后缀)
	 */
	public SensitiveWord(String fileName)
	{
		this.fileName = fileName;
	}
	
	/**
	 * @param replceStr 敏感词被转换的字符
	 * @param replceSize 初始转义容量
	 */
	public SensitiveWord(String replceStr,int replceSize)
	{
		this.replceStr = fileName;
		this.replceSize = replceSize;
	}
	
	public SensitiveWord()
	{
	}
	/**
	 * @param str 将要被过滤信息
	 * @return 过滤后的信息
	 */
	public String filterInfo(String str)
	{
		StringBuilder buffer = new StringBuilder(str);
		HashMap<Integer, Integer> hash = new HashMap<Integer, Integer>(arrayList.size());
		String temp;
		for(int x = 0; x < arrayList.size();x++)
		{
			temp = arrayList.get(x);
			int findIndexSize = 0;
			for(int start = -1;(start=buffer.indexOf(temp,findIndexSize)) > -1;)
			{
				findIndexSize = start+temp.length();//从已找到的后面开始找
				Integer mapStart = hash.get(start);//起始位置
				if(mapStart == null || (mapStart != null && findIndexSize > mapStart))//满足1个,即可更新map
				{
					hash.put(start, findIndexSize);
				}
			}
		}
		Collection<Integer> values = hash.keySet();
		for(Integer startIndex : values)
		{
			Integer endIndex = hash.get(startIndex);
			buffer.replace(startIndex, endIndex, replaceAll.substring(0,endIndex-startIndex));
		}
		hash.clear();
		return buffer.toString();
	}
	/**
	 *   初始化敏感词库
	 */
	public void InitializationWork()
	{
		replaceAll = new StringBuilder(replceSize);
		for(int x=0;x < replceSize;x++)
		{
			replaceAll.append(replceStr);
		}
		//加载词库
		arrayList = new ArrayList<String>();
		InputStreamReader read = null;
		BufferedReader bufferedReader = null;
		try {
			read = new InputStreamReader(SensitiveWord.class.getClassLoader().getResourceAsStream(fileName),encoding);
			bufferedReader = new BufferedReader(read);
			for(String txt = null;(txt = bufferedReader.readLine()) != null;){
				if(!arrayList.contains(txt))
					arrayList.add(txt);
		    }
		} catch (UnsupportedEncodingException e) {
			e.printStackTrace();
		} catch (IOException e) {
			e.printStackTrace();
		}finally{
			try {
				if(null != bufferedReader)
				bufferedReader.close();
			} catch (IOException e) {
				e.printStackTrace();
			}
			try {
				if(null != read)
				read.close();
			} catch (IOException e) {
				e.printStackTrace();
			}
		}
	}
	public StringBuilder getReplaceAll() {
		return replaceAll;
	}
	public void setReplaceAll(StringBuilder replaceAll) {
		this.replaceAll = replaceAll;
	}
	public String getReplceStr() {
		return replceStr;
	}
	public void setReplceStr(String replceStr) {
		this.replceStr = replceStr;
	}
	public int getReplceSize() {
		return replceSize;
	}
	public void setReplceSize(int replceSize) {
		this.replceSize = replceSize;
	}
	public String getFileName() {
		return fileName;
	}
	public void setFileName(String fileName) {
		this.fileName = fileName;
	}
	public List<String> getArrayList() {
		return arrayList;
	}
	public void setArrayList(List<String> arrayList) {
		this.arrayList = arrayList;
	}
	public String getEncoding() {
		return encoding;
	}
	public void setEncoding(String encoding) {
		this.encoding = encoding;
	}
	
}

查看评论

Java实现DFA算法对敏感词、广告词过滤功能

开发中经常要处理用户一些文字的提交,所以涉及到了敏感词过滤的功能,参考资料中DFA有穷状态机算法的实现,创建有向图。完成了对敏感词、广告词的过滤,而且效率较好,所以分享一下。 具体实现: 1、匹配...
  • fengshizty
  • fengshizty
  • 2016-08-31 11:47:35
  • 9125

敏感词过滤与DFA算法Trie树

关键字过滤 trie树
  • helloznan
  • helloznan
  • 2016-07-04 11:24:01
  • 3035

网站敏感词过滤的实现(附敏感词库)

现在基本上所有的网站都需要设置敏感词过滤,似乎已经成了一个网站的标配,如果你的网站没有,或者你没有做相应的处理,那么小心相关部门请你喝茶哦。 最近在调研Java web网站的敏感词过滤的实现,网上找...
  • shuyou612
  • shuyou612
  • 2017-07-10 17:50:05
  • 19193

DFA敏感词过滤算法

运用DFA算法加密。 首先我先对敏感词库初始化,若我的敏感词库为 冰毒 白粉 大麻 大坏蛋 初始化之后得到的是下面这样。: {冰={毒={isEnd=1}, isEnd=0}, 白={粉={isEnd...
  • qq_33101675
  • qq_33101675
  • 2017-09-04 14:12:58
  • 787

Java实现敏感词过滤

敏感词、文字过滤是一个网站必不可少的功能,如何设计一个好的、高效的过滤算法是非常有必要的。前段时间我一个朋友(马上毕业,接触编程不久)要我帮他看一个文字过滤的东西,它说检索效率非常慢。我把它程序拿过来...
  • chenssy
  • chenssy
  • 2014-05-25 15:42:03
  • 94014

浅析过滤敏感词过滤算法(C++)

C++ 的过滤敏感词算法
  • u012755940
  • u012755940
  • 2016-06-16 09:20:28
  • 274

java敏感词过滤(词库+算法)高效率验证

需求:用户输入一段文字,验证是否包含敏感词,以及具体的是哪些敏感词,替换为*等....1.需要一个词库,我这里就是一个从github下载的一个txt文件。已转存到百度网盘,点击下载词库,提取码:tk3...
  • yqwang75457
  • yqwang75457
  • 2018-03-01 09:41:43
  • 101

C#敏感词过滤算法实现

1.DFA算法简介DFA全称为:Deterministic Finite Automaton,即确定有穷自动机。其特征为:有一个有限状态集合和一些从一个状态通向另一个状态的边,每条边上标记有一个符号,...
  • u011966339
  • u011966339
  • 2017-06-01 16:21:25
  • 3769

DFA算法 及java版本实现敏感词过滤

DFA应用于检测敏感词,说到底就是建立了以敏感词为基础的许多敏感词树。 敏感词、文字过滤是一个网站必不可少的功能,如何设计一个好的、高效的过滤算法是非常有必要的。前段时间我一个朋友(马上毕业,接...
  • tigerfz
  • tigerfz
  • 2016-11-28 13:26:54
  • 1284
    个人资料
    等级:
    访问量: 16万+
    积分: 1689
    排名: 2万+
    最新评论