【数据结构】Trie树（字典树）

最新推荐文章于 2023-06-05 04:50:58 发布

御用厨师

最新推荐文章于 2023-06-05 04:50:58 发布

阅读量334

点赞数 1

分类专栏：数据结构文章标签：数据结构树结构 c++ 算法贪心算法

本文链接：https://blog.csdn.net/qq_45520647/article/details/119884416

版权

数据结构专栏收录该内容

9 篇文章 1 订阅

订阅专栏

1 基本概念

Trie树（字典树），也叫单词查找树，是一种高效地存储和查找字符串集合的数据结构（不仅限于字符串）。在y总眼里这是一个非常简单的数据结构。
它包括以下三个性质：

根节点不包含字符，除根节点外每一个节点都只包含一个字符
从根节点到某一节点，路径上经过的字符连接起来，为该节点对应的字符串
每个节点的所有子节点包含的字符都不相同

举个例子：
假设Trie树存储abcdef, abdef, acef, bcdf, bcff, cdaa, bcdc，并通过该树查找aced, abcf, abcd。
Q1：如何高效存储？
A1：简单概括为：创造节点，结尾做标记。以abcdef为例，从根节点出发，找字符a

若存在则以a为父节点，寻找下一个字符b
若不存在则创造节点a，然后以a为父节点，寻找下一个字符b
整个是一个递归的过程，直到字符f对应的节点产生后，对该节点做标记，代表有一个字符串以f结尾。

存储好以上字符串的Trie树如下图所示：
在这里插入图片描述
Q2：如何高效查找？
A2：
对acef：遍历树a → c → e → f，直到找到节点f且此节点有标记（代表是一个字符串的结尾）
对abcf：遍历不到f
对abcd：遍历到d但d节点无标记，说明Trie树没有存储这个字符串

2 代码实现

2.1 一些细节

在字典树中我们常用这样几个数组和变量：
1.son[M][N]
整个树被存储在son数组中，M代表每一个父节点，N代表对应的孩子节点，在初始化时要搞清楚树中最多会有多少节点M，每个节点最多会有多少子节点N。（树状数组）

2.cnt[M]
count的缩写，cnt[i]表示以索引为i的节点为结尾的字符串的个数。因为节点数最多为M，所以容量也要开到M。

3.idx
index的缩写，每创建一个新的节点都会为其分配一个独一无二的idx。idx = 0表示这是根节点（也是空节点）。

4.字符串遍历
C++中，字符串的结尾为’\0’，可以做为出循环的临界点，即

for(int i = 0; str[i]; i ++){
	// 字符串遍历
}

5.不出错的scanf("%c", &op)方法
在之前¹提到了如果确定op只有一个字符的话，可以这样做：

char op[2];
scanf("%s", op);	// 这里利用了scanf在读字符串时会过滤回车、空格
if(op[0] == 'I') insert(...)
// op[0] 换成 *op 也是可以的

注¹：之前的方法可参考：【数据结构】单链表、双链表的算法实现 3.3 bug

2.2 存储

每存储一个字符串，都要从根节点出发（把根节点当成父节点），先判断是否有要存储的点

如果有就下一个
如果没有就创造

把该点做为父节点，然后判断下一个。直到最后一个节点存在，对其进行记录。代码实现如下：

void insert(char str[]){
	int p = 0;	// 从根节点出发
	for(int i = 0; str[i]; i ++){
		int u = str[i] - 'a';	// 'a'~'z' -> 0 ~ 25
		if(!son[p][u]) son[p][u] = ++ idx;
		p = son[p][u];
	}
	cnt[p] ++;	// 记录
}

2.3 查找

查找和存储的思维是类似的。
有一点要注意，查找失败有两种情况：

遍历过程中没找到对应的节点
遍历结束后（for循环结束）返回值为0，代表无标记（无标记也就是并没有存储）

int query(char str[]){
	int p = 0;
	for(int i = 0; str[i]; i ++){
		int u = str[i] - 'a';
		if(!son[p][u]) return 0;	// 查找失败
		p = son[p][u];
	}
	return cnt[p];	
}

3 题目

3.1 裸题

题目链接：AcWing 835. Trie字符串统计
代码：

#include<iostream>

using namespace std;

const int N = 100010;

int son[N][26];
int cnt[N]; // 以当前该点结尾的单词有多少
int idx;    // 当前用到的下标，下标 = 0:既是根节点，又是空节点
char str[N];

void insert(char str[]){
    int p = 0; // 从根结点开始
    for(int i = 0; str[i]; i ++){
        // 遍历字符串
        int u = str[i] - 'a'; // 'a'~'z' -> 0 ~ 25
        if(!son[p][u]) son[p][u] = ++ idx;  // 不管有没有现在都有了，并且每个节点都有一个独一无二的idx
        p = son[p][u];  // 这个节点当下一个字符的父亲节点
    }
    cnt[p] ++;
}

int query(char str[]){
    int p = 0;
    for(int i = 0; str[i]; i ++){
        int u = str[i] - 'a';
        if(!son[p][u]) return 0;
        p = son[p][u];
    }
    return cnt[p];
}


int main(){
    int n;
    scanf("%d", &n);
    while(n --){
        char op[2];
        scanf("%s%s", op, str);
        if(*op == 'I'){
            insert(str);
        }
        else printf("%d\n", query(str));
    }

    return 0;
}

3.2 最大异或对

题目链接：AcWing 143. 最大异或对
题解：
这道题其实在想的时候已经想到点了，但是还是太追求一步到位所以没有想出更具体的解题方法。

细节1

10⁵意味着这是*O(nlogn)*的时间复杂度¹，这样的时间复杂度是可以至少遍历一遍的，所以不妨控制树的一条分支（即一个树），然后去从另一个分支去寻找最大值，即：

int res = 0;
for(int i = 0; i < n; i ++){
	res = max(res, search(a[i]));	// 先固定一个再搜索
}

注：由数据范围推时间复杂度可参考：【技巧】由数据范围反推算法复杂度以及算法内容

细节2

一开始想的是把一个数的二进制一次性全部表示出来，但其实想想也没必要。数据范围是>=0,<2³¹说明最多有31个二进制位，那么每次在遍历时每次取一位即可：
假设个位是0位，取一个数的第 i 位可表示为：x >> i & 1

int p = 0;
for(int i = 30; i >= 0; i --){
	int &s = son[p][x >> i & 1];
	if(!s) s = ++ idx;
	p = s;
}

完整代码

#include<iostream>

using namespace std;

const int N = 100010;
const int M = 3100000;  // Ai < 2^31^，说明Ai最多31位全1。31 * 100000

int a[N];
int son[M][2];
int idx;

void insert(int x){
    int p = 0; // 从根结点开始
    for(int i = 30; i >= 0; i --){
        int &s = son[p][x >> i & 1];
        if(!s) s = ++ idx;
        p = s;
    }
}

int search(int x){
    int p = 0, res = 0;
    for(int i = 30; i >= 0; i --){
        int s = x >> i & 1;
        if(son[p][!s]){
            res += 1 << i;  // << 优先级高于 += 
            p = son[p][!s];
        }
        else{
            res += 0 << i;  // 这一步其实可以没有
            p = son[p][s];
        }
    }
    return res;
}


int main(){
    int n;
    scanf("%d", &n);
    for(int i = 0; i < n; i ++){
        scanf("%d", &a[i]);
        insert(a[i]);
    }

    int res = 0;
    for(int i = 0; i < n; i ++){
        res = max(res, search(a[i]));   // 先固定一个再搜索
    }

    cout << res;

}

3.3 待刷题

以下题目来源：ZZUACM招新群（群号：562888278）
1.leetcode 面试题 16.02. 单词频率
2.leetcode720 词典中最长单词
3.leetcode 面试题 17.17. 多次搜索
4.leetcode 面试题 17.15. 最长单词
5.leetcode 139. 单词拆分
6.leetcode 140. 单词拆分 II
7.leetcode 212. 单词搜索 II
8.leetcode 面试题 17.13. 恢复空格

御用厨师

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【数据结构】Trie树（字典树）

1 基本概念Trie树（字典树），也叫单词查找树，是一种高效地存储和查找字符串集合的数据结构（不仅限于字符串）。在y总眼里这是一个非常简单的数据结构。它包括以下三个性质：根节点不包含字符，除根节点外每一个节点都只包含一个字符从根节点到某一节点，路径上经过的字符连接起来，为该节点对应的字符串每个节点的所有子节点包含的字符都不相同举个例子：假设Trie树存储abcdef, abdef, acef, bcdf, bcff, cdaa, bcdc，并通过该树查找aced, abcf, abcd。
复制链接

扫一扫

专栏目录