1.1、什么是Trie树
Trie树,即字典树,又称单词查找树或键树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:最大限度地减少无谓的字符串比较,查询效率比哈希表高。
Trie的核心思想是空间换时间。利用字符串的公共前缀来降低查询时间的开销以达到提高效率的目的。
它有3个基本性质:
- 根节点不包含字符,除根节点外每一个节点都只包含一个字符。
- 从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串。
- 每个节点的所有子节点包含的字符都不相同。
1.2、树的构建
举个在网上流传颇广的例子,如下:
题目:给你100000个长度不超过10的单词。对于每一个单词,我们要判断他出没出现过,如果出现了,求第一次出现在第几个位置。
分析:这题当然可以用hash来解决,但是本文重点介绍的是trie树,因为在某些方面它的用途更大。比如说对于某一个单词,我们要询问它的前缀是否出现过。这样hash就不好搞了,而用trie还是很简单。
现在回到例子中,如果我们用最傻的方法,对于每一个单词,我们都要去查找它前面的单词中是否有它。那么这个算法的复杂度就是O(n^2)。显然对于100000的范围难以接受。现在我们换个思路想。假设我要查询的单词是abcd,那么在他前面的单词中,以b,c,d,f之类开头的我显然不必考虑。而只要找以a开头的中是否存在abcd就可以了。同样的,在以a开头中的单词中,我们只要考虑以b作为第二个字母的,一次次缩小范围和提高针对性,这样一个树的模型就渐渐清晰了。
好比假设有b,abc,abd,bcd,abcd,efg,hii 这6个单词,我们构建的树就是如下图这样的:
当时第一次看到这幅图的时候,便立马感到此树之不凡构造了。单单从上幅图便可窥知一二,好比大海搜人,立马就能确定东南西北中的到底哪个方位,如此迅速缩小查找的范围和提高查找的针对性,不失为一创举。
ok,如上图所示,对于每一个节点,从根遍历到他的过程就是一个单词,如果这个节点被标记为红色,就表示这个单词存在,否则不存在。
那么,对于一个单词,我只要顺着他从根走到对应的节点,再看这个节点是否被标记为红色就可以知道它是否出现过了。把这个节点标记为红色,就相当于插入了这个单词。
这样一来我们查询和插入可以一起完成(重点体会这个查询和插入是如何一起完成的,稍后,下文具体解释),所用时间仅仅为单词长度,在这一个样例,便是10。
我们可以看到,trie树每一层的节点数是26^i级别的。所以为了节省空间。我们用动态链表,或者用数组来模拟动态。空间的花费,不会超过单词数×单词长度。
2.1、Trie的数据结构定义:
#define MAX 26
typedef struct trie {
struct trie* node[MAX];
int v;
} Trie;
node是表示每层有多少种类的数,如果只是小写字母,则26即可,若改为大小写字母,则是52,若再加上数字,则是62了,这里根据题意来确定。
v可以表示一个字典树到此有多少相同前缀的数目,或者表示一个单词的结束。这里根据需要应当学会自由变化。
2.2、Trie的构建
int bulid_trie(Trie **root, const char *str)
{
int slen, i, index;
if (NULL == str) return -1;
if (NULL == *root) {
*root = create_node();
if (NULL == *root)
return -2;
}
Trie *p = *root;
slen = strlen(str);
for (i = 0; i < slen; i ++) {
index = str[i] - 'a';
if (p->node[index] == NULL) {
p->node[index] = create_node();
}
p = p->node[index];
p->v ++;
}
return 0;
}
2.3 、Trie的查找(最主要的操作):
每次从根结点开始一次搜索;
取得要查找关键词的第一个字母,并根据该字母选择对应的子树并转到该子树继续进行检索
在相应的子树上,取得要查找关键词的第二个字母,并进一步选择对应的子树进行检索
迭代过程……
在某个结点处,关键词的所有字母已被取出,则读取附在该结点上的信息,即完成查找。
int find_trie(Trie *root, const char *str)
{
int slen, i, index;
Trie *p = root;
if (NULL == root || NULL == str)
return -1;
slen = strlen(str);
for (i = 0; i < slen; i ++) {
index = str[i] - 'a';
if (p->node[index])
p = p->node[index];
else
return 0;
}
return p->v;
}
2.4、Trie树的应用
- 1、有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。
- 2、1000万字符串,其中有些是重复的,需要把重复的全部去掉,保留没有重复的字符串。请怎么设计和实现?
- 3、一个文本文件,大约有一万行,每行一个词,要求统计出其中最频繁出现的前10个词,请给出思想,给出时间复杂度分析。
- 4、寻找热门查询:搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。假设目前有一千万个记录,这些查询串的重复读比较高,虽然总数是1千万,但是如果去除重复和,不超过3百万个。一个查询串的重复度越高,说明查询它的用户越多,也就越热门。请你统计最热门的10个查询串,要求使用的内存不能超过1G。
(1) 请描述你解决这个问题的思路;
(2) 请给出主要的处理流程,算法,以及算法的复杂度。
3、Trie简单实现源码(查找所有已知单词包含某个前缀的数量)
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#define MAX 26
typedef struct trie {
struct trie* node[MAX];
int v;
} Trie;
Trie *root;
Trie *create_node()
{
Trie *node;
node = (Trie *)malloc(sizeof(Trie));
if (node) {
memset(node, 0, sizeof(Trie));
}
else
return NULL;
return node;
}
int bulid_trie(Trie **root, const char *str)
{
int slen, i, index;
if (NULL == str) return -1;
if (NULL == *root) {
*root = create_node();
if (NULL == *root)
return -2;
}
Trie *p = *root;
slen = strlen(str);
for (i = 0; i < slen; i ++) {
index = str[i] - 'a';
if (p->node[index] == NULL) {
p->node[index] = create_node();
}
p = p->node[index];
p->v ++;
}
return 0;
}
int find_trie(Trie *root, const char *str)
{
int slen, i, index;
Trie *p = root;
if (NULL == root || NULL == str)
return -1;
slen = strlen(str);
for (i = 0; i < slen; i ++) {
index = str[i] - 'a';
if (p->node[index])
p = p->node[index];
else
return 0;
}
return p->v;
}
int free_trie(Trie *root)
{
int i;
if (root) {
for (i = 0; i < MAX; i ++) {
if (root->node[i])
free_trie(root->node[i]);
}
free(root);
}
return 0;
}
int main()
{
int i;
const char *test[] = {
"abcdef", "abmnb", "abckl", "acdfg", "adert", "abcokjh"
} ;
for (i = 0; i < 6; i ++) {
bulid_trie(&root, test[i]);
}
int v = find_trie(root, "abc");
printf(">>>>v: %d\n", v);
free(root);
return 0;
}