一 字典树
字典树(Trie,/tri:'i:/,又称前缀树):
1、多叉树
2、专门用于字符串处理,不把整个字符串看做一个整体,而是把每个字符看做一个整体
二 结点定义
每个节点存储一个字符和与后继字符的关系,对于不考虑大小写的英语单词,定语如下:
class Node{
char c;
Node next[26];
}
问题:如果考虑大小写,或者存储的是其他语言,如俄语字符,每个字符的后继字符可能就不是26个,如此,数据结构就不够灵活了?
解决1:考虑不同语言,不同情况,代码如下,每添加一个后继,增加一个映射。
class Node{
char c;
Map<char, Node> next;
}
解决2:在去往后继结点前,就知道该结点中存储什么字符了。结点中可以不存储字符,结点存在,隐含了字符存在的信息。
class Node{
Map<char, Node> next;
}
问题:某个单词可能是另一个单词的前缀,如何判断一个单词?
解决:使用叶子结点判断一个单词是不够的,应为可能存在一个单词是另一个单词的前缀的情况,因此,需要在节点中添加一个属性,标识一个单词的结尾,代码如下:
class Node{
boolean isWord;
Map<char, Node> next;
}
三 相关方法分析
1 添加元素操作
数据结构Tire,是用来处理字符串的,添加元素类型也应该是字符串类型(具体处理的的是英语语言,有若干个字母组成一个单词),因此方法的声明如下:void add(String word);
具体的存储情况如下图所示:
从图中可以看出:1.多叉树 2.除根节点外,每个节点存储一个字符
关于第二点,每个节点存储一个字符的具体含义是,每个节点存在隐含了该节点已经存储了某个字符的信息(结点中并没有实际存储该字符,这也是上图没有把字符写在节点内的原因),这是由节点的定义决定的,同时每个节点存在,隐含存储了何种字符,此信息记录在每个节点的父亲节点中。根节点没有父亲节点,因此该节点不隐含存储字符信息。
方法具体实现的逻辑(非递归):已知根节点不隐含存储字符信息,因此从根节点的孩子节点开始存储字符串第一个字符的信息。如果隐含存储字符串第一个字符信息的节点存在,