剑指Offer——Trie树(字典树)_节点中有多个字母的trie(1)

最新推荐文章于 2024-07-22 09:01:45 发布

2401_84418883

最新推荐文章于 2024-07-22 09:01:45 发布

阅读量19

点赞数 25

分类专栏：程序员文章标签： .net 数据库前端

本文链接：https://blog.csdn.net/2401_84418883/article/details/138392748

版权

程序员专栏收录该内容

205 篇文章 0 订阅

订阅专栏

考察剩下的字符串"dd"的前缀"d"，发现从节点a出发，已经有边d存在。于是顺着边d走到节点ad

考察最后一个字符"d"，这下从节点ad出发没有边d了，于是创建节点ad的子节点add，并把边ad->add标记为d。

查找分析

在trie树中查找一个关键字的时间和树中包含的结点数无关，而取决于组成关键字的字符数。而二叉查找树的查找时间和树中的结点数有关O(log2n)。

如果要查找的关键字可以分解成字符序列且不是很长，利用trie树查找速度优于二叉查找树。例如：若关键字长度最大是5，则利用trie树，利用5次比较可以从26^5＝11881376个可能的关键字中检索出指定的关键字。而利用二叉查找树至少要进行次比较。

应用

1. 字符串检索，词频统计，搜索引擎的热门查询

事先将已知的一些字符串（字典）的有关信息保存到trie树里，查找另外一些未知字符串是否出现过或者出现频率。

举例：

1、有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。

2、给出N 个单词组成的熟词表，以及一篇全用小写英文书写的文章，请你按最早出现的顺序写出所有不在熟词表中的生词。

3、给出一个词典，其中的单词为不良单词。单词均为小写字母。再给出一段文本，文本的每一行也由小写字母构成。判断文本中是否含有任何不良单词。例如，若rob是不良单词，那么文本problem含有不良单词。

4、1000万字符串，其中有些是重复的，需要把重复的全部去掉，保留没有重复的字符串。请怎么设计和实现？

5、一个文本文件，大约有一万行，每行一个词，要求统计出其中最频繁出现的前10个词，请给出思想，给出时间复杂度分析。

6、寻找热门查询：搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255字节。假设目前有一千万个记录，这些查询串的重复读比较高，虽然总数是1千万，但是如果去除重复和，不超过3百万个。一个查询串的重复度越高，说明查询它的用户越多，也就越热门。请你统计最热门的10个查询串，要求使用的内存不能超过1G(京东笔试题简答题与此类似)。

(1) 请描述你解决这个问题的思路；

(2) 请给出主要的处理流程，算法，以及算法的复杂度。

2. 字符串最长公共前缀

Trie树利用多个字符串的公共前缀来节省存储空间，反之，当我们把大量字符串存储到一棵trie树上时，我们可以快速得到某些字符串的公共前缀。举例：

1) 给出N 个小写英文字母串，以及Q 个询问，即询问某两个串的最长公共前缀的长度是多少. 解决方案：

首先对所有的串建立其对应的字母树。此时发现，对于两个串的最长公共前缀的长度即它们所在结点的公共祖先个数，于是，问题就转化为了离线（Offline）的最近公共祖先（Least Common Ancestor，简称LCA）问题。

而最近公共祖先问题同样是一个经典问题，可以用下面几种方法：

1. 利用并查集（Disjoint Set），可以采用经典的Tarjan 算法；

2. 求出字母树的欧拉序列（Euler Sequence ）后，就可以转为经典的最小值查询（Range Minimum Query，简称RMQ）问题了；

3. 排序

Trie树是一棵多叉树，只要先序遍历整棵树，输出相应的字符串便是按字典序排序的结果。

举例：给你N 个互不相同的仅由一个单词构成的英文名，让你将它们按字典序从小到大排序输出。

4. 作为其他数据结构和算法的辅助结构

如后缀树，AC自动机等。

举例

下面以字典树的构建与单词查找为例。

TrieTreeNode.java

package cn.edu.ujn.trieTree;
 
public class TrieTreeNode {
    int nCount;	//记录该字符出现次数  
    char ch; //记录该字符  
    TrieTreeNode[] child;	// 记录子节点  
    final int MAX_SIZE = 26;
    public TrieTreeNode() {  
        nCount=1;  
        child = new TrieTreeNode[MAX_SIZE];
    }  
}

TrieTree.java

package cn.edu.ujn.trieTree;
 
public class TrieTree {
    //字典树的插入和构建  
    public void createTrie(TrieTreeNode node,String str){  
        if (str == null || str.length() == 0) {  
            return;
        }
        char[] letters = str.toCharArray();
        for (int i = 0; i < letters.length; i++) {  
            int pos = letters[i] - 'a';	  // 用相对于a字母的值作为下标索引，也隐式地记录了该字母的值  
            if (node.child[pos] == null) {
                node.child[pos] = new TrieTreeNode();
            }else {
                node.child[pos].nCount++;
            }
            node.ch = letters[i];              
            node = node.child[pos];              
        }  
    }  
    
    //字典树的查找  
    public int findCount(TrieTreeNode node,String str){  
        if (str == null || str.length() == 0) {  
            return -1;
        }  
        char[] letters = str.toCharArray();
        for (int i = 0; i < letters.length; i++) {  
            int pos = letters[i] - 'a';
            if (node.child[pos] == null) {    
                return 0;     
            }else {  
                node = node.child[pos];  
            }           
        }
        return node.nCount;
    }  
 
}

Test.java

package cn.edu.ujn.trieTree;
 
public class Test {
public static void main(String[] args) {
/**
 * Problem Description 老师交给他很多单词(只有小写字母组成,不会有重复的单词出现),现在老师要他统计
 * 出以某个字符串为前缀的单词数量(单词本身也是自己的前缀).
 */
String[] strs = { "banana", "band", "bee", "absolute", "acm" };
String[] prefix = { "ba", "b", "band", "abc" };
TrieTree tree = new TrieTree();
TrieTreeNode root = new TrieTreeNode();
 
for (String s : strs) {
tree.createTrie(root, s);
}
// tree.printAllWords();
for (String pre : prefix) {
int num = tree.findCount(root, pre);
System.out.println(pre + " " + num);
}
}
}

小结

看过上面的代码，是否发现这个代码有什么问题呢？尽管这个实现方式查找的效率很高，时间复杂度是O(m)，m是要查找的单词中包含的字母的个数。但是确浪费大量存放空指针的存储空间。因为不可能每个节点的子节点都包含26个字母的。所以对于这个问题，字典树存在的意义是解决快速搜索的问题，所以采取以空间换时间的作法也毋庸置疑。

Trie树占用内存较大，例如：处理最大长度为20、全部为小写字母的一组字符串，则可能需要 2620 个节点来保存数据。而这样的树实际上稀疏的十分厉害，可以采用左儿子右兄弟的方式来改善，也可以采用需要多少子节点则添加多少子节点来解决（不要类似网上的示例，每个节点初始化时就申请一个长度为26的数组）。

Wiki上提到了采用三数组Trie(Tripple-Array Trie)和二数组Trie(Double-Array Trie)来解决该问题，此外还有压缩等方式来缓解该问题。

示例优化

TrieTreeNode.java

package cn.edu.ujn.trieTreeMap;
 
import java.util.HashMap;
import java.util.Map;
 
public class TrieNode {
    int nCount;	//记录该字符出现次数  
    Map<Character, TrieNode> childdren;	// 记录子节点  
    public TrieNode() {  
        nCount = 1;  
        childdren = new HashMap<Character, TrieNode>();
    }  
}

TrieTree.java

package cn.edu.ujn.trieTreeMap;
 
// 利用Map动态创建节点
public class TrieTree {
 
    // 字典树的插入和构建
    public void insert(TrieNode node, String word) {
        for (int i = 0; i < word.length(); i++) {
            Character c = new Character(word.charAt(i));
            if (!node.childdren.containsKey(c)) {
                node.childdren.put(c, new TrieNode());
            }else{
            	node.childdren.get(c).nCount++;
            }
            node = node.childdren.get(c);
        }
    }
 
    // 字典树的查找
    public int search(TrieNode node, String word) {
        for (int i = 0; i < word.length(); i++) {
            Character c = new Character(word.charAt(i));
            if (!node.childdren.containsKey(c)) {
                return 0;
            }
            node = node.childdren.get(c);
        }
        return node.nCount;
    }
 
}

Test.java

package cn.edu.ujn.trieTreeMap;
 
public class Test {
public static void main(String[] args) {
/**
 * Problem Description 老师交给他很多单词(只有小写字母组成,不会有重复的单词出现),现在老师要他统计
 * 出以某个字符串为前缀的单词数量(单词本身也是自己的前缀).
 */


### 刷面试题

刷题的重要性，不用多说。对于应届生或工作年限不长的人来说，刷面试题一方面能够尽可能地快速自己对某个技术点的理解，另一方面在面试时，有一定几率被问到相同或相似题，另外或多或少也能够为自己面试增加一些自信心，可见适当的刷题是很有必要的。

**[开源分享：【大厂前端面试题解析+核心总结学习笔记+真实项目实战+最新讲解视频】](https://bbs.csdn.net/topics/618166371)**

* **前端字节跳动真题解析**  

  ![](https://img-blog.csdnimg.cn/img_convert/8d27500df7b25342f252bca635ca0ab3.png)

* **【269页】前端大厂面试题宝典**  

  ![](https://img-blog.csdnimg.cn/img_convert/eac3322374bd31596de9bf548f6ce47f.png)


最后平时要进行自我分析与评价，做好职业规划，不断摸索，提高自己的编程能力和抽象思维能力。大厂面试远没有我们想的那么困难，摆好心态，做好准备，你也可以的。

2401_84418883

关注

25
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
剑指Offer——Trie树(字典树)_节点中有多个字母的trie(1)

考察剩下的字符串"dd"的前缀"d"，发现从节点a出发，已经有边d存在。于是顺着边d走到节点ad考察最后一个字符"d"，这下从节点ad出发没有边d了，于是创建节点ad的子节点add，并把边ad->add标记为d。在trie树中查找一个关键字的时间和树中包含的结点数无关，而取决于组成关键字的字符数。而二叉查找树的查找时间和树中的结点数有关O(log2n)。如果要查找的关键字可以分解成字符序列且不是很长，利用trie树查找速度优于二叉查找树。
复制链接

扫一扫