文章目录
使用前缀树过滤敏感词
前缀树简介
前缀树又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。
它有3个基本性质:
1、根节点不包含字符,除根节点外每一个节点都只包含一个字符;
2、从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串;
3、每个节点的所有子节点包含的字符都不相同。
1、导入敏感词 可以存放到数据库 也可以放到文件里
2、定义前缀树 使用内部类
- isEndNode //看是不是最后一个结点
- Map<Character,TrieNode> subNodes 定义子节点 key是下级字符 value是子结点
- 添加子结点
- 通过字符获取子结点
private class TrieNode{
//看是不是最后一个结点
private boolean isEndNode=false;
//定义子节点 key是下级字符 value是子节点
private Map<Character,TrieNode> subNodes=new HashMap<>();
//添加子节点
public void addSubNode(Character character,TrieNode trieNode)
{
subNodes.put(character,trieNode);
}
//通过字符获取子节点
public TrieNode getSubNode(Character character)
{
return subNodes.get(character);
}
public boolean isEndNode() {
return isEndNode;
}
public void setEndNode(boolean endNode) {
isEndNode = endNode;
}
}
3、根据敏感词初始化前缀树
@PostConstruct该注解被用来修饰一个非静态的void()方法。被@PostConstruct修饰的方法会在服务器加载Servlet的时候运行,并且只会被服务器执行一次。PostConstruct在构造函数之后自动执行。
- 获取编译后的敏感词文件
- 把字节流转化为字符流再转化为缓冲流
- 一行一行读取 ,把读取到的敏感词添加到前缀树中
//初始化前缀树
@PostConstruct
public void init()
{
try ( InputStream inputStream=this.getClass().getClassLoader().getResourceAsStream("sensitive-words.txt");
BufferedReader reader=new BufferedReader(new InputStreamReader(inputStream));
)
{
String word;
while ((word=reader.readLine())!=null)
{
//把敏感词添加到前缀树
this.addKeyword(word);
}
} catch (Exception e) {
logger.error("加载敏感词文件失败"+e.getMessage());
}
}
将一个敏感词添加到前缀树
- 创建临时结点先指向根节点
- 以字符为单位,每次读取一个字符,先调用getSubNode 看是否有相同字符的子节点
- 如果不存在相同字符的子节点则需要进行初始化,添加子节点
- 把指针指向当前子节点进行下一次循环
- 设置结束标识 如果当前结点为最后一个结点,则把其标识设置为true
//将一个敏感词添加到前缀树
private void addKeyword(String word)
{
//创建临时结点先指向根节点
TrieNode TempNode=rootNode;
for(int i=0;i<word.length();i++)
{
char c=word.charAt(i);
TrieNode subNode = TempNode.getSubNode(c);
//如果得到的子节点为空 则添加 否则说明已经存在相同字符的子节点
if(subNode==null){
subNode=new TrieNode();
TempNode.addSubNode(c,subNode);
}
//指向子节点 进入下一次循环
TempNode=subNode;
//设置结束标志
if(i==word.length()-1)
{
TempNode.setEndNode(true);
}
}
}
4、编写过滤敏感词的方法
- ❤赌❤博❤
- 定义三个指针 指针1指向根节点 指针2 指向文本的开始 指针3 指向文本的开始
- stringbuildeer存储过滤结果
- 以第二指针是否到结尾为循环条件 ,以第三指针为条件可能会遗漏
- 如果字符是符号并且此时是根节点的时候就追加符号 继续下次循环
- 获取根结点的子节点判断 如果为空说明以该字符开头的词不是敏感词 begin++ 并且把该字符加入到结果中 不为空说明可能是敏感词 position++继续判断
// 判断是否为符号
private boolean isSymbol(Character c) {
// 0x2E80~0x9FFF 是东亚文字范围
return !CharUtils.isAsciiAlphanumeric(c) && (c < 0x2E80 || c > 0x9FFF);
}
/**
* 过滤敏感词
*
* @param text 待过滤的文本
* @return 过滤后的文本
*/
public String filter(String text) {
//如果position等于text的length说明没有敏感词
if(position==text.length())
{
stringBuilder.append(text.charAt(begin));
position=++begin;
}
//如果文本为空则不过滤
if(StringUtils.isBlank(text))
{
return null;
}
//定义指针1指向根节点
TrieNode tempNode=rootNode;
//定义指针2 指向文本的开始
int begin=0;
//定义指针3 指向文本的开始
int position=0;
//定义stringbuildeer存储过滤结果
StringBuilder stringBuilder=new StringBuilder();
//以第二指针是否到结尾为循环条件 ,以第三指针为条件可能会遗漏
while (begin<text.length())
{
//获取position位置的字符
char c=text.charAt(position);
//跳过符号
//比如❤赌❤博❤
if(isSymbol(c))
{
//如果字符是符号并且此时是根节点的时候就追加符号 继续下次循环
if(tempNode==rootNode)
{
position=++begin;
stringBuilder.append(c);
}
// 无论符号在开头或中间,指针3都向下走一步
position++;
continue;
}
//获取根结点的子节点判断 如果为空说明以该字符开头的词不是敏感词 begin++ 并且把该字符加入到结果中
//不为空说明可能是敏感词 position++继续判断
tempNode=tempNode.getSubNode(c);
if(tempNode==null)
{
position=++begin;
stringBuilder.append(c);
//重新指向根节点
tempNode=rootNode;
}else if(tempNode.isEndNode) {
//替换
stringBuilder.append(REPLACE_WORD);
//进入下一个位置
begin=++position;
//重新指向根节点
tempNode=rootNode;
}else {
// 检查下一个字符
position++;
}
}
return stringBuilder.toString();
}
5、测试
@RunWith(SpringRunner.class)
@SpringBootTest
@ContextConfiguration(classes = CommunityApplication.class)
public class SensitiveFilterTest {
@Autowired
private SensitiveFilter sensitiveFilter;
@Test
public void testSensitiveFilter() {
String text = "这里可以赌博,可以嫖娼,可以吸毒,可以开票,哈哈哈!";
text = sensitiveFilter.filter(text);
System.out.println(text);
text = "这里可以☆赌☆博☆,可以☆嫖☆娼☆,可以☆吸☆毒☆,可以☆开☆票☆,哈哈哈!";
text = sensitiveFilter.filter(text);
System.out.println(text);
}
}
*****输出结果
这里可以***,可以***,可以***,可以***,哈哈哈!
这里可以☆***☆,可以☆***☆,可以☆***☆,可以☆***☆,哈哈哈!