【数据结构】Trie树(字典树)

1 基本概念

Trie树(字典树),也叫单词查找树,是一种高效地存储查找字符串集合的数据结构(不仅限于字符串)。在y总眼里这是一个非常简单的数据结构。
它包括以下三个性质:

  • 根节点不包含字符,除根节点外每一个节点都只包含一个字符
  • 从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串
  • 每个节点的所有子节点包含的字符都不相同

举个例子:
假设Trie树存储abcdef, abdef, acef, bcdf, bcff, cdaa, bcdc,并通过该树查找aced, abcf, abcd
Q1:如何高效存储?
A1:简单概括为:创造节点,结尾做标记。以abcdef为例,从根节点出发,找字符a

  • 若存在则以a为父节点,寻找下一个字符b
  • 若不存在则创造节点a,然后以a为父节点,寻找下一个字符b
  • 整个是一个递归的过程,直到字符f对应的节点产生后,对该节点做标记,代表有一个字符串以f结尾。

存储好以上字符串的Trie树如下图所示:
在这里插入图片描述
Q2:如何高效查找?
A2:
acef:遍历树a → c → e → f,直到找到节点f且此节点有标记(代表是一个字符串的结尾)
abcf:遍历不到f
abcd:遍历到dd节点无标记,说明Trie树没有存储这个字符串

2 代码实现

2.1 一些细节

在字典树中我们常用这样几个数组和变量:
1.son[M][N]
整个树被存储在son数组中,M代表每一个父节点,N代表对应的孩子节点,在初始化时要搞清楚树中最多会有多少节点M,每个节点最多会有多少子节点N。(树状数组)

2.cnt[M]
count的缩写,cnt[i]表示以索引为i的节点为结尾的字符串的个数。因为节点数最多为M,所以容量也要开到M。

3.idx
index的缩写,每创建一个新的节点都会为其分配一个独一无二的idx。idx = 0表示这是根节点(也是空节点)。

4.字符串遍历
C++中,字符串的结尾为’\0’,可以做为出循环的临界点,即

for(int i = 0; str[i]; i ++){
	// 字符串遍历
}

5.不出错的scanf("%c", &op)方法
在之前1提到了如果确定op只有一个字符的话,可以这样做:

char op[2];
scanf("%s", op);	// 这里利用了scanf在读字符串时会过滤回车、空格
if(op[0] == 'I') insert(...)
// op[0] 换成 *op 也是可以的

1:之前的方法可参考:【数据结构】单链表、双链表的算法实现 3.3 bug

2.2 存储

每存储一个字符串,都要从根节点出发(把根节点当成父节点),先判断是否有要存储的点

  • 如果有就下一个
  • 如果没有就创造

把该点做为父节点,然后判断下一个。直到最后一个节点存在,对其进行记录。代码实现如下:

void insert(char str[]){
	int p = 0;	// 从根节点出发
	for(int i = 0; str[i]; i ++){
		int u = str[i] - 'a';	// 'a'~'z' -> 0 ~ 25
		if(!son[p][u]) son[p][u] = ++ idx;
		p = son[p][u];
	}
	cnt[p] ++;	// 记录
}

2.3 查找

查找和存储的思维是类似的。
有一点要注意,查找失败有两种情况:

  • 遍历过程中没找到对应的节点
  • 遍历结束后(for循环结束)返回值为0,代表无标记(无标记也就是并没有存储)
int query(char str[]){
	int p = 0;
	for(int i = 0; str[i]; i ++){
		int u = str[i] - 'a';
		if(!son[p][u]) return 0;	// 查找失败
		p = son[p][u];
	}
	return cnt[p];	
}

3 题目

3.1 裸题

题目链接:AcWing 835. Trie字符串统计
代码:

#include<iostream>

using namespace std;

const int N = 100010;

int son[N][26];
int cnt[N]; // 以当前该点结尾的单词有多少
int idx;    // 当前用到的下标,下标 = 0:既是根节点,又是空节点
char str[N];

void insert(char str[]){
    int p = 0; // 从根结点开始
    for(int i = 0; str[i]; i ++){
        // 遍历字符串
        int u = str[i] - 'a'; // 'a'~'z' -> 0 ~ 25
        if(!son[p][u]) son[p][u] = ++ idx;  // 不管有没有现在都有了,并且每个节点都有一个独一无二的idx
        p = son[p][u];  // 这个节点当下一个字符的父亲节点
    }
    cnt[p] ++;
}

int query(char str[]){
    int p = 0;
    for(int i = 0; str[i]; i ++){
        int u = str[i] - 'a';
        if(!son[p][u]) return 0;
        p = son[p][u];
    }
    return cnt[p];
}


int main(){
    int n;
    scanf("%d", &n);
    while(n --){
        char op[2];
        scanf("%s%s", op, str);
        if(*op == 'I'){
            insert(str);
        }
        else printf("%d\n", query(str));
    }

    return 0;
}

3.2 最大异或对

题目链接:AcWing 143. 最大异或对
题解:
这道题其实在想的时候已经想到点了,但是还是太追求一步到位所以没有想出更具体的解题方法。

细节1

105意味着这是*O(nlogn)*的时间复杂度1,这样的时间复杂度是可以至少遍历一遍的,所以不妨控制树的一条分支(即一个树),然后去从另一个分支去寻找最大值,即:

int res = 0;
for(int i = 0; i < n; i ++){
	res = max(res, search(a[i]));	// 先固定一个再搜索
}

注:由数据范围推时间复杂度可参考:【技巧】由数据范围反推算法复杂度以及算法内容

细节2

一开始想的是把一个数的二进制一次性全部表示出来,但其实想想也没必要。数据范围是>=0,<231说明最多有31个二进制位,那么每次在遍历时每次取一位即可:
假设个位是0位,取一个数的第 i 位可表示为:x >> i & 1

int p = 0;
for(int i = 30; i >= 0; i --){
	int &s = son[p][x >> i & 1];
	if(!s) s = ++ idx;
	p = s;
}

完整代码

#include<iostream>

using namespace std;

const int N = 100010;
const int M = 3100000;  // Ai < 2^31^,说明Ai最多31位全1。31 * 100000

int a[N];
int son[M][2];
int idx;

void insert(int x){
    int p = 0; // 从根结点开始
    for(int i = 30; i >= 0; i --){
        int &s = son[p][x >> i & 1];
        if(!s) s = ++ idx;
        p = s;
    }
}

int search(int x){
    int p = 0, res = 0;
    for(int i = 30; i >= 0; i --){
        int s = x >> i & 1;
        if(son[p][!s]){
            res += 1 << i;  // << 优先级高于 += 
            p = son[p][!s];
        }
        else{
            res += 0 << i;  // 这一步其实可以没有
            p = son[p][s];
        }
    }
    return res;
}


int main(){
    int n;
    scanf("%d", &n);
    for(int i = 0; i < n; i ++){
        scanf("%d", &a[i]);
        insert(a[i]);
    }

    int res = 0;
    for(int i = 0; i < n; i ++){
        res = max(res, search(a[i]));   // 先固定一个再搜索
    }

    cout << res;

}

3.3 待刷题

以下题目来源:ZZUACM招新群(群号:562888278)
1.leetcode 面试题 16.02. 单词频率
2.leetcode720 词典中最长单词
3.leetcode 面试题 17.17. 多次搜索
4.leetcode 面试题 17.15. 最长单词
5.leetcode 139. 单词拆分
6.leetcode 140. 单词拆分 II
7.leetcode 212. 单词搜索 II
8.leetcode 面试题 17.13. 恢复空格

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值