一、字典树
字典树——Trie树,又称为前缀树(Prefix Tree)、单词查找树或键树,是一种多叉树结构。
上图是一棵 Trie 树,表示了关键字集合{“a”, “to”, “tea”, “ted”, “ten”, “i”, “in”, “inn”} 。从上图可以归纳出Trie树的基本性质:
- 根节点不包含字符,除根节点外的每一个子节点都包含一个字符。
- 从根节点到某一个节点,路径上经过的字符连接起来,为该节点对应的字符串。
- 每个节点的所有子节点包含的字符互不相同。
通常在实现的时候,会在结点结构中设置一个标志,用来标记该节点处是否构成一个单词(关键字 : count)。
struct trie_node{
int count; // 0 : 不构成一个单词 , > 0 : 构成一个单词
struct trie_node * children[26]; // 如上图,'to' 中 o 对应节点的 children 数组的值全为NULL
};
可以看出,Trie树的关键字一般都是字符串,而且Trie树把每个关键字保存在一条路径上,而不是一个节点中。另外,有两个公共前缀的关键字,在Trie树种前缀部分的路径相同。所以Trie又称为前缀树。
二、字典树的优缺点
优点
插入和查询的效率很高,均是O(m),其中 m 是待插入/查询的 字符串长度 。
- 关于查询,有人会说hash表时间复杂度是O(1)不是更快?但是哈希搜索的效率取决于哈希函数的好坏,若一个坏的hash函数导致了很多冲突,效率不一定比Trie树高。
Trie树中不同的关键字不会产生冲突。
Trie树中只有在允许一个关键字关联多个值的情况下才有类似hash碰撞发生。
Trie树不用求hash值,对短字符串有更快的速度。通常,求hash值也是需要遍历字符串的(与hash函数相关)。
Trie树可以对关键字 按照字典序排序 (先序遍历)。
- 字典排序(lexicographical order)是一种对于随机变量形成序列的排序方法。其方法是,按照字母顺序,或者数字小大顺序,由小到大的形成序列。
每一颗Trie树都可以被看做一个简单版的确定有限状态的自动机(DFA,deterministic finite automation),也就是说,对于一个任意给定属于该自动机的状态(①)和一个属于该自动机字母表的字符(②),都可以根据给定的转移函数(③)转到下一个状态。其中:
- ① 对于Trie树的每一个节点都确定一个自动机的状态。
- ② 给定一个属于该自动机字母表的字符,在图中可以看到根据不同字符形成的分支;
- ③ 从当前节点进入下一层次节点的过程进过状态转移函数得出。
核心思想是:空间换时间,利用字符串的公共前缀来减少无谓的字符串比较以达到提高查询效率的目的。
缺点
当hash函数很好时,Trie树的查找效率低于哈希搜索。
空间消耗大。
三、Trie树的应用
字符串检索