Trie简介
Trie 是一颗非典型的多叉树模型,多叉好理解,即每个结点的分支数量可能为多个。和一般的多叉树不一样,尤其在结点的数据结构设计上,比如一般的多叉树的结点是这样的:
public class TreeNode {
/** 节点Id */
private String nodeId;
/** 父节点Id */
private String parentId;
/** 文本内容 */
private String text;
}
而前缀树的结点是这样的:
class Tries{
Boolean isEnd ;
HashMap<Character, Tries> children=new HashMap<Character, Tries>();
}
上面的 isTrie 用来标记单词是否遍历完。children表示该节点的子节点。
前缀树的特性有:
- 根节点不包含字符,除根节点外的每一个子节点都包含一个字符。
- 从根节点到某一个节点,路径上经过的字符连接起来,为该节点对应的字符串。
- 每个节点的所有子节点包含的字符互不相同。
- 从第一字符开始有连续重复的字符只占用一个节点,比如上面的to,和ten,中重复的单词t只占用了一个节点。
实现前缀树
-
插入字符串
我们从字典树的根开始,插入字符串。对于当前字符对应的子节点,有两种情况:-
子节点存在。沿着指针移动到子节点,继续处理下一个字符。
-
子节点不存在。创建一个新的子节点,记录在children数组的对应位置上,然后沿着指针移动到子节点,继续搜索下一个字符。
-
重复以上步骤,直到处理字符串的最后一个字符,然后将当前节点标记为字符串的结尾。
public void insert(String word) {
Trie node =this;
for(int i=0;i<word.length();i++){
char ch = word.charAt(i);
int index = ch-'a';
if(node.children[index]==null){
node.children[index]=new Trie();
}
node=node.children[index];
}
node.isEnd = true;
}
-
查找前缀
我们从字典树的根开始,查找前缀。对于当前字符对应的子节点,有两种情况:-
子节点不存在。说明字典树中不包含该前缀,返回空指针。
重复以上步骤,直到返回空指针或搜索完前缀的最后一个字符。 -
子节点存在。沿着指针移动到子节点,继续搜索下一个字符。
-
若搜索到了前缀的末尾,就说明字典树中存在该前缀。此外,若前缀末尾对应节点的 isEnd为真,则说明字典树中存在该字符串。
public boolean search(String word) {
Trie node =searchPre(word);
return node!=null&&node.isEnd;
}
public Trie searchPre(String prefix){
Trie node = this;
for(int i=0;i<prefix.length();i++){
char ch = prefix.charAt(i);
int index = ch-'a';
if(node.children[index]==null){
return null;
}
node = node.children[index];
}
return node;
}
/** Returns if there is any word in the trie that starts with the given prefix. */
public boolean startsWith(String prefix) {
return searchPre(prefix)!=null;
}