字典树Trie

本文详细介绍了Trie树(字典树)的概念,包括其基本性质、优点(如高效的插入和查询,无冲突,按字典序排序等)和缺点(如空间消耗大)。讨论了Trie树的应用,如字符串检索、词频统计、字符串排序和前缀匹配,并对比了Trie树与哈希表、二叉搜索树的性能和特点。此外,还提到了Trie树的改进方法,如位 Trie 树和节点压缩技术。
摘要由CSDN通过智能技术生成

一、字典树

字典树——Trie树,又称为前缀树(Prefix Tree)、单词查找树或键树,是一种多叉树结构。

字典树

上图是一棵 Trie 树,表示了关键字集合{“a”, “to”, “tea”, “ted”, “ten”, “i”, “in”, “inn”} 。从上图可以归纳出Trie树的基本性质:

  • 根节点不包含字符,除根节点外的每一个子节点都包含一个字符。
  • 从根节点到某一个节点,路径上经过的字符连接起来,为该节点对应的字符串。
  • 每个节点的所有子节点包含的字符互不相同。

通常在实现的时候,会在结点结构中设置一个标志,用来标记该节点处是否构成一个单词(关键字 : count)。

struct trie_node{
    int count; // 0 : 不构成一个单词 , > 0 : 构成一个单词
    struct trie_node * children[26]; // 如上图,'to' 中 o 对应节点的 children 数组的值全为NULL
};

可以看出,Trie树的关键字一般都是字符串,而且Trie树把每个关键字保存在一条路径上,而不是一个节点中。另外,有两个公共前缀的关键字,在Trie树种前缀部分的路径相同。所以Trie又称为前缀树

二、字典树的优缺点

优点

  1. 插入和查询的效率很高,均是O(m),其中 m 是待插入/查询的 字符串长度

    • 关于查询,有人会说hash表时间复杂度是O(1)不是更快?但是哈希搜索的效率取决于哈希函数的好坏,若一个坏的hash函数导致了很多冲突,效率不一定比Trie树高。
  2. Trie树中不同的关键字不会产生冲突。

  3. Trie树中只有在允许一个关键字关联多个值的情况下才有类似hash碰撞发生。

  4. Trie树不用求hash值,对短字符串有更快的速度。通常,求hash值也是需要遍历字符串的(与hash函数相关)

  5. Trie树可以对关键字 按照字典序排序 (先序遍历)。

    • 字典排序(lexicographical order)是一种对于随机变量形成序列的排序方法。其方法是,按照字母顺序,或者数字小大顺序,由小到大的形成序列。
  6. 每一颗Trie树都可以被看做一个简单版的确定有限状态的自动机(DFA,deterministic finite automation),也就是说,对于一个任意给定属于该自动机的状态(①)和一个属于该自动机字母表的字符(②),都可以根据给定的转移函数(③)转到下一个状态。其中:

    • ① 对于Trie树的每一个节点都确定一个自动机的状态。
    • ② 给定一个属于该自动机字母表的字符,在图中可以看到根据不同字符形成的分支;
    • ③ 从当前节点进入下一层次节点的过程进过状态转移函数得出。

    核心思想是:空间换时间,利用字符串的公共前缀来减少无谓的字符串比较以达到提高查询效率的目的。

缺点

  1. 当hash函数很好时,Trie树的查找效率低于哈希搜索。

  2. 空间消耗大。

三、Trie树的应用

  1. 字符串检索

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值