前缀树知识点普及 + leecode相关题集练习（一）

最新推荐文章于 2022-07-03 23:57:51 发布

追本溯源

最新推荐文章于 2022-07-03 23:57:51 发布

阅读量344

点赞数

文章标签：算法数据结构字符串 c++

原文链接：https://blog.csdn.net/qq_43152052/article/details/101109415

版权

前缀树的定义：
又称单词查找树，字典树，Trie树，是一种树形结构，是一种哈希树的变种。典型应用是用于统计，排序和保存大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：利用字符串的公共前缀来减少查询时间，最大限度地减少无谓的字符串比较，查询效率比哈希树高。
Trie树基本性质.
从根到某一个节点,拼接长字符串;
一个节点的子节点字符一定不相同
Trie提高效率,用空间换时间

问题解决：

（1）前缀树的构建

举个在网上流传颇广的例子，如下：

题目：给你100000个长度不超过10的单词。对于每一个单词，我们要判断他出没出现过，如果出现了，求第一次出现在第几个位置。 
分析：这题当然可以用hash来解决，但是本文重点介绍的是trie树，因为在某些方面它的用途更大。比如说对于某一个单词，我们要询问它的前缀是否出现过。这样hash就不好搞了，而用trie还是很简单。 
现在回到例子中，如果我们用最傻的方法，对于每一个单词，我们都要去查找它前面的单词中是否有它。那么这个算法的复杂度就是O(n^2)。显然对于100000的范围难以接受。现在我们换个思路想。假设我要查询的单词是abcd，那么在他前面的单词中，以b，c，d，f之类开头的我显然不必考虑。而只要找以a开头的中是否存在abcd就可以了。同样的，在以a开头中的单词中，我们只要考虑以b作为第二个字母的，一次次缩小范围和提高针对性，这样一个树的模型就渐渐清晰了。 
好比假设有b，abc，abd，bcd，abcd，efg，hii 这6个单词，我们构建的树就是如下图这样的：

在这里插入片描述
当时第一次看到这幅图的时候，便立马感到此树之不凡构造了。单单从上幅图便可窥知一二，好比大海搜人，立马就能确定东南西北中的到底哪个方位，如此迅速缩小查找的范围和提高查找的针对性，不失为一创举。

ok，如上图所示，对于每一个节点，从根遍历到他的过程就是一个单词，**如果这个节点被标记为红色，就表示这个单词存在，否则不存在。**

那么，对于一个单词，我只要顺着他从根走到对应的节点，再看这个节点是否被标记为红色就可以知道它是否出现过了。把这个节点标记为红色，就相当于插入了这个单词。

这样一来我们查询和插入可以一起完成（重点体会这个查询和插入是如何一起完成的，稍后，下文具体解释），所用时间仅仅为单词长度，在这一个样例，便是10。

我们可以看到，trie树每一层的节点数是26^i级别的。所以为了节省空间。我们用动态链表，或者用数组来模拟动态。空间的花费，不会超过单词数×单词长度。

（2）前缀查询
上文中提到”比如说对于某一个单词，我们要询问它的前缀是否出现过。这样hash就不好搞了，而用trie还是很简单“。下面，咱们来看看这个前缀查询问题：

已知n个由小写字母构成的平均长度为10的单词,判断其中是否存在某个串为另一个串的前缀子串。下面对比3种方法：

最容易想到的：即从字符串集中从头往后搜，看每个字符串是否为字符串集中某个字符串的前缀，复杂度为O(n^2)。
使用hash：我们用hash存下所有字符串的所有的前缀子串，建立存有子串hash的复杂度为O(nlen)，而查询的复杂度为O(n) O(1)= O(n)。
使用trie：因为当查询如字符串abc是否为某个字符串的前缀时，显然以b,c,d…等不是以a开头的字符串就不用查找了。所以建立trie的复杂度为O(nlen)，而建立+查询在trie中是可以同时执行的，建立的过程也就可以成为查询的过程，hash就不能实现这个功能。所以总的复杂度为O(nlen)，实际查询的复杂度也只是O(len)。（说白了，就是Trie树的平均高度h为len，所以Trie树的查询复杂度为O（h）=O（len）。好比一棵二叉平衡树的高度为logN，则其查询，插入的平均时间复杂度亦为O（logN））。
（3）查询
Trie树是简单但实用的数据结构，通常用于实现字典查询。我们做即时响应用户输入的AJAX搜索框时，就是Trie开始。本质上，Trie是一颗存储多个字符串的树。相邻节点间的边代表一个字符，这样树的每条分支代表一则子串，而树的叶节点则代表完整的字符串。和普通树不同的地方是，相同的字符串前缀共享同一条分支。下面，再举一个例子。给出一组单词，inn, int, at, age, adv, ant, 我们可以得到下面的Trie：
在这里插入图片描述
可以看出：
每条边对应一个字母。
每个节点对应一项前缀。叶节点对应最长前缀，即单词本身。
单词inn与单词int有共同的前缀“in”, 因此他们共享左边的一条分支，root->i->in。同理，ate, age, adv, 和ant共享前缀"a"，所以他们共享从根节点到节点"a"的边。
查询操纵非常简单。比如要查找int，顺着路径i -> in -> int就找到了。
搭建Trie的基本算法也很简单，无非是逐一把每则单词的每个字母插入Trie。插入前先看前缀是否存在。如果存在，就共享，否则创建对应的节点和边。比如要插入单词add，就有下面几步：

考察前缀"a"，发现边a已经存在。于是顺着边a走到节点a。
考察剩下的字符串"dd"的前缀"d"，发现从节点a出发，已经有边d存在。于是顺着边d走到节点ad
考察最后一个字符"d"，这下从节点ad出发没有边d了，于是创建节点ad的子节点add，并把边ad->add标记为d。

（4）Trie树的应用
除了本文引言处所述的问题能应用Trie树解决之外，Trie树还能解决下述问题（节选自此文：海量数据处理面试题集锦与Bit-map详解）：

3、有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。
9、1000万字符串，其中有些是重复的，需要把重复的全部去掉，保留没有重复的字符串。请怎么设计和实现？
10、一个文本文件，大约有一万行，每行一个词，要求统计出其中最频繁出现的前10个词，请给出思想，给出时间复杂度分析。
13、寻找热门查询：搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255字节。假设目前有一千万个记录，这些查询串的重复读比较高，虽然总数是1千万，但是如果去除重复和，不超过3百万个。一个查询串的重复度越高，说明查询它的用户越多，也就越热门。请你统计最热门的10个查询串，要求使用的内存不能超过1G。
(1) 请描述你解决这个问题的思路；
(2) 请给出主要的处理流程，算法，以及算法的复杂度。
有了Trie，后缀树就容易理解了。本文接下来的第二部分，介绍后缀树。

（5）leecode 208. 1. 实现 Trie (前缀树)

#include <iostream>
#include <string>
using namespace std;

class Trie {
    Trie* next[26] = {NULL};
    bool isEnd = false;
public:
    /** Initialize your data structure here. */
    Trie() {
    	//也可以在这里初始化构造
        // isEnd = false;
        // memset(next, NULL, sizeof(next));
    }
    
    /** Inserts a word into the trie.
    这个操作和构建链表很像。首先从根结点的子结点开始与 word 第一个字符进行匹配，
    一直匹配到前缀  链上没有对应的字符，这时开始不断开辟新的结点，直到插入完 word的最后一个字     符，同时还要将最后一个结点isEnd = true;，表示它是一个单词的末尾。
 */
    void insert(string word) {
        Trie *node  = this;
        for(char c: word){
            if(node ->next[c-'a'] == NULL)
                node -> next[c-'a'] = new Trie();
            node = node->next[c-'a'];
        }
        node -> isEnd = true;
    }
    /** Returns if the word is in the trie.
    描述：查找 Trie 中是否存在单词 word
    实现：从根结点的子结点开始，一直向下匹配即可，如果出现结点值为空就返回false，如果匹配到了     最后一个字符，那我们只需判断node->isEnd即可。
     */
    bool search(string word) {
        Trie* node = this;
        for (char c : word) {
            node = node->next[c - 'a'];
            if (node == NULL)
                return false;    
        }
        return node->isEnd;
    }
    
    /** Returns if there is any word in the trie that starts with the given prefix.
    描述：判断 Trie 中是或有以 prefix 为前缀的单词
    实现：和 search 操作类似，只是不需要判断最后一个字符结点的isEnd，
    因为既然能匹配到最后一个字符，那后面一定有单词是以它为前缀的。*/
    bool startsWith(string prefix) {
        Trie* node = this;
        for (char c : prefix) {
            node = node->next[c-'a'];
            if (node == NULL) 
                return false;
        }
        return true;
    }
};

int main()
{
	Trie* trie = new Trie();
	trie->insert("apple");
	cout << trie->search("apple") << endl;
	cout << trie->search("app") << endl;
	cout << trie->startsWith("app") << endl;
	trie->insert("leecode");
    cout << trie->search("lee") << endl;
    system("pause");
}

leecode 211. 添加与搜索单词 - 数据结构设计
设计一个支持以下两种操作的数据结构：
void addWord(word)
bool search(word)
search(word) 可以搜索文字或正则表达式字符串，字符串只包含字母 . 或 a-z 。 . 可以表示任何一个字母。

示例:
addWord(“bad”)
addWord(“dad”)
addWord(“mad”)
search(“pad”) -> false
search(“bad”) -> true
search(".ad") -> true
search(“b…”) -> true
说明:

你可以假设所有单词都是由小写字母 a-z 组成的。

class WordDictionary {
public:
    bool isEnd;
    WordDictionary* next[26];
    /** Initialize your data structure here. */
    WordDictionary() {
        isEnd = false;
        memset(next, 0, sizeof(next)); ///0 和NULL都可以
    }
    
    /** Adds a word into the data structure. */
    void addWord(string word) {
        WordDictionary* node = this;
        for(auto c : word){
            if(node->next[c-'a'] == nullptr)
                node->next[c-'a'] = new WordDictionary();
            node = node -> next[c - 'a']; 
        }
        node -> isEnd = true;
    }
    
    /** Returns if the word is in the data structure. A word could contain the dot character '.' to represent any one letter. */
    bool search(string word) {
        return dfs(this, word, 0);
    }
    bool dfs(WordDictionary* node, string word, size_t i) {
        /*递归边界：i 达到word.size的时候：
        若是字母，则查找next[]中对应位置是否不为空并且是结束标志；
        若是'.'，则查找next[]中是否存在非空并且是结束标志者。*/
        if(node==nullptr)return false;
        if(i >= word.size()) return node->isEnd; //边界

        //该字符不为点.
        if(word[i]!='.'){   
            if(node->next[word[i]-'a']!=nullptr)
                return dfs(node->next[word[i]-'a'], word, i+1);//未到边界继续dfs
            else
                return false;
        }
        //点： 遍历出node的后所有字符串路径，只要有一条字符串路径满足就返回true 
        for(size_t j=0;j<26;++j){
            if(node->next[j] && dfs(node->next[j],word,i+1)) return true; 
        }
        return false; 
    }
};