算法数据结构——字典树、前缀树、单词查找树(Trie)精讲及python实现

1. 字典树简介

字典树(Trie):又称为前缀树、单词查找树,是一种树形结构。顾名思义,就是一个像字典一样的树。它是字典的一种存储方式。字典中的每个单词在字典树中表现为一条从根节点出发的路径,路径相连的边上的字母连起来就形成对应的字符串。

例如下图就是一棵字典树,其中包含有 aabcacbaccachbchb 这 7 个单词。

从图中可以发现,这棵字典树用边来表示字母,从根节点到树上某一节点的路径就代表了一个单词。比如 1 → 2 → 6 → 10 表示的就是单词 acc。为了清楚地标记单词,我们可以在每个单词的结束节点位置增加一个 end 标记(图中红色节点),表示从根节点到这里有一个单词。

字典树的结构比较简单,其本质上就是一个用于字符串快速检索的多叉树,树上每个节点都包含多字符指针。将从根节点到某一节点路径上经过的字符连接起来,就是该节点对应的字符串。

字典树设计的核心思想 :利用空间换时间,利用字符串的公共前缀来降低查询时间的开销,最大限度的减少无谓的字符串比较,以达到提高效率的目的。

下面我们来归纳一下 字典树的基本性质

  • 根节点不包含字符,除根节点外,每个节点都只包含一个字符。

  • 从根节点到某一节点,路径航经过的字符串连接起来,就是该节点对应的字符串。

  • 每个节点的所有子节点包含的字符串都不相同。

2. 字典树的基本操作

字典树的基本操作有 创建插入查找删除。其中删除操作是最不常用,我们这里主要介绍字典树的创建、插入和查找。

2.1 字典树的结构

2.1.1 字典树的节点结构

首先我们先来定义一下字典树的节点结构。

上面说到字典树是一棵多叉树,这个 「多叉」 的意思是一个节点可以有多个子节点。而多叉的实现方式可以使用数组实现,也可以使用哈希表实现。接下来我们来介绍一下这两种节点结构。

  • 如果字符串所涉及的字符集合只包含小写英文字母的话,我们可以使用一个长度为 26 的数组来表示当前节点的多个子节点,如下面代码所示。

class Node:                                         # 字符节点
    def __init__(self):                             # 初始化字符节点
        self.children = [None for _ in range(26)]    # 初始化子节点
        self.isEnd = False                          # isEnd 用于标记单词结束

代码中,self.children 使用数组实现,表示该节点的所有子节点。isEnd 则用于标记单词是否结束。

这样,如果我们在插入单词时,需要先将单词中的字符转换为数字,再创建对应的字符节点,并将其映射到长度为 26 数组中。

  • 如果所涉及的字符集合不仅包含小写字母,还包含大写字母和其他字符,我们可以使用哈希表来表示当前节点的多个子节点,如下面代码所示。

class Node:                                     # 字符节点
    def __init__(self):                         # 初始化字符节点
        self.children = dict()                  # 初始化子节点
        self.isEnd = False                      # isEnd 用于标记单词结束

代码中,self.children 使用哈希表实现,表示该节点的所有子节点。isEnd 则用于标记单词是否结束。这样,如果我们在插入单词时,直接根据单词中的字符创建对应的字符节点,并将其插入到对应的哈希表中。

下面为了统一代码和编写方便,本文代码全部以哈希表的形式来表示当前节点的多个子节点。

2.1.2 字典树的基本结构

定义完了字典树的字符结构,下面我们定义下字典树的基本结构。在字典树的初始化操作时,定义一个根节点。并且这个根节点不用保存字符。在后续进行插入操作、查找操作都是从字典树的根节点开始的。字典树的基本结构代码如下。

class Trie:                                     # 字典树
    
    # 初始化字典树
    def __init__(self):                         # 初始化字典树
        self.root = Node()                      # 初始化根节点(根节点不保存字符)

2.2 字典树的创建和插入操作

字典树的创建指的是将字符串数组中的所有字符串都插⼊字典树中。而插⼊操作指的是将⼀个字符串插⼊字典树中。

2.2.1 字典树的插入操作

在讲解字典树的创建之前,我们先来看一下如何在字典树中插入一个单词。具体步骤如下:

  • 依次遍历单词中的字符 ch,并从字典树的根节点的子节点位置开始进行插入操作(根节点不包含字符)。

  • 如果当前节点的子节点中,不存在键为 ch 的节点,则建立一个节点,并将其保存到当前节点的子节点中,即 cur.children[ch] = Node(),然后令当前节点指向新建立的节点,然后继续处理下一个字符。

  • 如果当前节点的子节点中,存在键为 ch 的节点,则直接令当前节点指向键为 ch 的节点,继续处理下一个字符。

  • 在单词处理完成时,将当前节点标记为单词结束。

# 向字典树中插入一个单词
def insert(self, word: str) -> None:
    cur = self.root
    for ch in word:                         # 遍历单词中的字符
        if ch not in cur.children:          # 如果当前节点的子节点中,不存在键为 ch 的节点
            cur.children[ch] = Node()       # 建立一个节点,并将其保存到当前节点的子节点
        cur = cur.children[ch]              # 令当前节点指向新建立的节点,继续处理下一个字符
    cur.isEnd = True                        # 单词处理完成时,将当前节点标记为单词结束

2.2.2 字典树的创建操作

字典树的创建比较简单,具体步骤如下:

  • 首先初始化一个字典树,即 trie = Trie()

  • 然后依次遍历字符串中的所有单词,将其一一插入到字典树中。

trie = Trie()
for word in words:
    trie.insert(word)

2.3 字典树的查找操作

2.3.1 字典树的查找单词操作

在字典树中查找某个单词是否存在,其实和字典树的插入操作差不多。具体操作如下:

  • 依次遍历单词中的字符,并从字典树的根节点位置开始进行查找操作。

  • 如果当前节点的子节点中,不存在键为 ch 的节点,则说明不存在该单词,直接返回 False

  • 如果当前节点的子节点中,存在键为 ch 的节点,则令当前节点指向新建立的节点,然后继续查找下一个字符。

  • 在单词处理完成时,判断当前节点是否有单词结束标记,如果有,则说明字典树中存在该单词,返回 True。否则,则说明字典树中不存在该单词,返回 False

# 查找字典树中是否存在一个单词
def search(self, word: str) -> bool:
    cur = self.root
    for ch in word:                         # 遍历单词中的字符
        if ch not in cur.children:          # 如果当前节点的子节点中,不存在键为 ch 的节点
            return False                    # 直接返回 False
        cur = cur.children[ch]              # 令当前节点指向新建立的节点,然后继续查找下一个字符
​
    return cur is not None and cur.isEnd    # 判断当前节点是否为空,并且是否有单词结束标记

2.3.2 字典树的查找前缀操作

在字典树中查找某个前缀是否存在,和字典树的查找单词操作一样,不同点在于最后不需要判断是否有单词结束标记。

# 查找字典树中是否存在一个前缀
def startsWith(self, prefix: str) -> bool:
    cur = self.root
    for ch in prefix:                       # 遍历前缀中的字符
        if ch not in cur.children:          # 如果当前节点的子节点中,不存在键为 ch 的节点
            return False                    # 直接返回 False
        cur = cur.children[ch]              # 令当前节点指向新建立的节点,然后继续查找下一个字符
    return cur is not None                  # 判断当前节点是否为空,不为空则查找成功

3. 字典树的实现代码

class Node:                                     # 字符节点
    def __init__(self):                         # 初始化字符节点
        self.children = dict()                  # 初始化子节点
        self.isEnd = False                      # isEnd 用于标记单词结束
        
        
class Trie:                                     # 字典树
    
    # 初始化字典树
    def __init__(self):                         # 初始化字典树
        self.root = Node()                      # 初始化根节点(根节点不保存字符)
​
    # 向字典树中插入一个单词
    def insert(self, word: str) -> None:
        cur = self.root
        for ch in word:                         # 遍历单词中的字符
            if ch not in cur.children:          # 如果当前节点的子节点中,不存在键为 ch 的节点
                cur.children[ch] = Node()       # 建立一个节点,并将其保存到当前节点的子节点
            cur = cur.children[ch]              # 令当前节点指向新建立的节点,继续处理下一个字符
        cur.isEnd = True                        # 单词处理完成时,将当前节点标记为单词结束
​
    # 查找字典树中是否存在一个单词
    def search(self, word: str) -> bool:
        cur = self.root
        for ch in word:                         # 遍历单词中的字符
            if ch not in cur.children:          # 如果当前节点的子节点中,不存在键为 ch 的节点
                return False                    # 直接返回 False
            cur = cur.children[ch]              # 令当前节点指向新建立的节点,然后继续查找下一个字符
​
        return cur is not None and cur.isEnd    # 判断当前节点是否为空,并且是否有单词结束标记
​
    # 查找字典树中是否存在一个前缀
    def startsWith(self, prefix: str) -> bool:
        cur = self.root
        for ch in prefix:                       # 遍历前缀中的字符
            if ch not in cur.children:          # 如果当前节点的子节点中,不存在键为 ch 的节点
                return False                    # 直接返回 False
            cur = cur.children[ch]              # 令当前节点指向新建立的节点,然后继续查找下一个字符
        return cur is not None                  # 判断当前节点是否为空,不为空则查找成功

4. 字典树的算法分析

假设单词的长度为 n,前缀的长度为 m,字符集合的维度为 d,则:

  • 插入一个单词:时间复杂度为 $O(n)$;如果使用数组,则空间复杂度为 $O(d^n)$,如果使用哈希表实现,则空间复杂度为 $O(n)$。

  • 查找一个单词:时间复杂度为 $O(n)$;空间复杂度为 $O(1)$。

  • 查找一个前缀:时间复杂度为 $O(m)$;空间复杂度为 $O(1)$。

5. 字典树的应用

字典树一个典型的应用场景就是:在搜索引擎中输入部分内容之后,搜索引擎就会自动弹出一些关联的相关搜索内容。我们可以从中直接选择自己想要搜索的内容,而不用将所有内容都输入进去。这个功能从一定程度上节省了我们的搜索时间。

例如下图,当我们输入「字典树」后,底下会出现一些以「字典树」为前缀的相关搜索内容。

这个功能实现的基本原理就是字典树。当然,像 Google、必应、百度这样的搜索引擎,在这个功能能的背后肯定做了大量的改进和优化,但它的底层最基本的原理就是「字典树」这种数据结构。

除此之外,我们可以把字典树的应用分为以下几种:

  • 字符串检索:事先将已知的⼀些字符串(字典)的有关信息存储到字典树⾥, 查找⼀些字符串是否出现过、出现的频率。

  • 前缀统计:统计⼀个串所有前缀单词的个数,只需统计从根节点到叶子节点路径上单词出现的个数,也可以判断⼀个单词是否为另⼀个单词的前缀。

  • 最长公共前缀问题:利用字典树求解多个字符串的最长公共前缀问题。将⼤量字符串都存储到⼀棵字典树上时, 可以快速得到某些字符串的公共前缀。对所有字符串都建⽴字典树,两个串的最长公共前缀的长度就是它们所在节点最近公共祖先的长度,于是转变为最近公共祖先问题。

  • 字符串排序:利⽤字典树进⾏串排序。例如,给定多个互不相同的仅由⼀个单词构成的英⽂名,将它们按字典序从⼩到⼤输出。采⽤数组⽅式创建字典树,字典树中每个节点的所有⼦节点都是按照其字母⼤⼩排序的。然后对字典树进⾏先序遍历,输出的相应字符串就是按字典序排序的结果。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Trie字典树的Java代码实现可以分为以下几部分: 1. 定义Trie节点类,包含children数组和isEndOfWord标识,用于表示是否是单词的结尾。 2. 定义Trie类,包含插入、查找和删除操作。 3. 在Trie类中实现插入操作,遍历字符串每一个字符,在Trie中寻找对应节点,如果不存在则新建节点。 4. 在Trie类中实现查找操作,遍历字符串每一个字符,在Trie中寻找对应节点,如果找到最后一个字符对应的节点的isEndOfWord标识为true,则说明字符串是单词。 5. 在Trie类中实现删除操作,遍历字符串每一个字符,在Trie中寻找对应节点,如果找到最后一个字符对应的节点的isEndOfWord标识为true,则将其设为false,并删除空节点。 如果需要完整代码和注释请告诉我。 ### 回答2: Trie字典树)是一种常用的数据结构,用于高效地存储和查找字符串。下面是Trie字典树的Java代码实现,用于返回单词。 ```java class TrieNode { private TrieNode[] children; private boolean isEndOfWord; public TrieNode() { children = new TrieNode[26]; // 字母表的大小为26 isEndOfWord = false; } public void insert(String word) { TrieNode curr = this; for (char c : word.toCharArray()) { if (curr.children[c - 'a'] == null) { curr.children[c - 'a'] = new TrieNode(); } curr = curr.children[c - 'a']; } curr.isEndOfWord = true; } public boolean search(String word) { TrieNode node = searchPrefix(word); return node != null && node.isEndOfWord; } public boolean startsWith(String prefix) { TrieNode node = searchPrefix(prefix); return node != null; } private TrieNode searchPrefix(String prefix) { TrieNode curr = this; for (char c : prefix.toCharArray()) { if (curr.children[c - 'a'] == null) { return null; } curr = curr.children[c - 'a']; } return curr; } } public class Trie { private TrieNode root; public Trie() { root = new TrieNode(); } public void insert(String word) { root.insert(word); } public boolean search(String word) { return root.search(word); } public boolean startsWith(String prefix) { return root.startsWith(prefix); } } public class Main { public static void main(String[] args) { Trie trie = new Trie(); trie.insert("apple"); trie.insert("app"); System.out.println(trie.search("apple")); // 输出:true System.out.println(trie.startsWith("app")); // 输出:true System.out.println(trie.search("banana")); // 输出:false } } ``` 以上代码中,`TrieNode`表示Trie的节点,`Trie`表示Trie的结构。其中`TrieNode`类包含了插入单词查找单词(完全匹配)以及查找前缀的功能。`Trie`类则是对外提供插入、查找单词和前缀的方法。 在`main`方法中,我们演示了如何使用`Trie`类来插入和查找单词。首先,我们插入了两个单词"apple"和"app"。然后分别调用`search`方法来查找"apple"和"banana",以及`startsWith`方法来查找以"app"开头的单词。最后,打印出对应的结果,即是否找到了对应的单词或前缀。 以上是Trie字典树的Java代码实现,用于返回单词。 ### 回答3: Trie字典树是一种经典的数据结构,用于高效地存储和查找字符串集合。下面是一个基于Java的Trie字典树的代码实现,可以实现返回单词的功能: ```java class TrieNode { private final int ALPHABET_SIZE = 26; private TrieNode[] children; private boolean isEndOfWord; public TrieNode() { children = new TrieNode[ALPHABET_SIZE]; isEndOfWord = false; } } class Trie { private TrieNode root; public Trie() { root = new TrieNode(); } public void insert(String word) { TrieNode current = root; for (int i = 0; i < word.length(); i++) { char ch = word.charAt(i); int index = ch - 'a'; if (current.children[index] == null) { current.children[index] = new TrieNode(); } current = current.children[index]; } current.isEndOfWord = true; } public boolean search(String word) { TrieNode current = root; for (int i = 0; i < word.length(); i++) { char ch = word.charAt(i); int index = ch - 'a'; if (current.children[index] == null) { return false; } current = current.children[index]; } return current != null && current.isEndOfWord; } public List<String> getAllWords() { List<String> result = new ArrayList<>(); TrieNode current = root; StringBuilder sb = new StringBuilder(); getAllWordsUtil(current, sb, result); return result; } private void getAllWordsUtil(TrieNode node, StringBuilder sb, List<String> result) { if (node == null) { return; } if (node.isEndOfWord) { result.add(sb.toString()); } for (int i = 0; i < ALPHABET_SIZE; i++) { if (node.children[i] != null) { sb.append((char)('a' + i)); getAllWordsUtil(node.children[i], sb, result); sb.deleteCharAt(sb.length() - 1); } } } } public class Main { public static void main(String[] args) { Trie trie = new Trie(); String[] words = {"hello", "world", "java", "programming"}; for (String word : words) { trie.insert(word); } List<String> allWords = trie.getAllWords(); System.out.println("All words in trie: " + allWords); } } ``` 上述代码中,TrieNode类表示字典树的节点,包括一个指向子节点的数组和一个标记,用于表示节点是否是某个单词的结尾。Trie类封装了字典树的操作,包括插入单词查找单词和返回所有单词的功能。在代码的主函数中,我们创建一个Trie对象并插入一些单词,然后调用getAllWords()方法返回字典树中的所有单词。最后,打印出返回的单词列表。 希望以上解答对您有所帮助,如有更多疑问,请继续追问。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值