今天写一个项目,遇到敏感词过滤问题。上面提到了先把敏感词存起来,在这里用到了Tire树来存储。
又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。
三个性质:
根节点不包含字符,除根节点外每一个节点都只包含一个字符;
从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串;
每个节点的所有子节点包含的字符都不相同。
实现:Tire树,可以通过数组或者链表来实现。
应用场景:
串的快速检索
给出N个单词组成的熟词表,以及一篇全用小写英文书写的文章,请你按最早出现的顺序写出所有不在熟词表中的生词。
在这道题中,我们可以用数组枚举,用哈希,用字典树,先把熟词建一棵树,然后读入文章进行比较,这种方法效率是比较高的
“串”的排序
给定N个互不相同的仅由一个单词构成的英文名,让你将他们按字典序从小到大输出
用字典树进行排序,采用数组的方式创建字典树,这棵树的每个结点的所有儿子很显然地按照其字母大小排序。对这棵树进行先序遍历即可。
最长公共前缀
对所有串建立字典树,对于两个串的最长公共前缀的长度即他们所在的结点的公共祖先个数,于是,问题就转化为当时公共祖先问题。
下面实现创建字典树和插入字符串,然后输入字符串去字典树中查找是否存在这样的字符串。
package com.nowcoder.wenda.agrithom;
/**
* Created by wuyunlong on 17-12-1.
*/
public class Trie {
private int SIZE = 26 ;
private TireNode root;//字典树的根
Trie(){
root = new TireNode();
}
private class TireNode //字典树节点
{
private int num ; //有多少单词通过这个节点,即由根至该节点组成的字符串模式出现的次数
private TireNode[] son ;//所有的儿子节点
private boolean isEnd;//是不是最后一个节点
private char val;//节点的值
TireNode(){
num = 1;
son = new TireNode[SIZE];
isEnd=false;
}
}
//建立字典树
public void insert(String str)//在字典树中插入一个单词
{
if (str == null || str.length() == 0){
return;
}
TireNode node = root;
char[] letters =str.toCharArray();
for (int i=0,len = str.length();i<len;i++){
int pos = letters[i] - 'a';
if (node.son[pos] == null){
node.son[pos] = new TireNode();
node.son[pos].val = letters[i];
}else{
node.son[pos].num++;
}
node = node.son[pos];
}
node.isEnd=true;
}
//在字典树中查找一个完全匹配的单词
public boolean has(String str){
if (str == null || str.length() == 0){
return false;
}
TireNode node = root;
char[] letters = str.toCharArray();
for (int i=0,len =str.length();i<len;i++){
int pos = letters[i]-'a';
if (node.son[pos]!=null){
node = node.son[pos];
}else{
return false;
}
}
return node.isEnd;
}
public static void main(String[] args){
Trie tree = new Trie();
String[] strs = {"banana","band","bee","absolute","acm","wuyunlong"};
String[] prefix = {"ba","b","band","abc"};
for (String str : strs){
tree.insert(str);
}
System.out.println(tree.has("wuyunlong"));
}
}