基本概念
字典树又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希表高。
算法分析
- 初始化
一棵空Trie仅包含一个根节点,该点的字符指针均指向空。
int p = 1;
- 插入
当我们需要插入字符串 s 时,我们将一个指针 p 指向根节点,然后,依次扫描 s 中的每个字符。
① 若 p 当前指向节点不空(即当前字符和树中存储的字符相同),则令 p 指向该节点;
② 若 p 当前指向节点为空(即当前字符和树中存储的字符不同),则将当前节点赋值当前字符;
③ 当 s 中的字符扫描完毕时,在当前节点 p 上标记它是一个单词。
void insert(const char *s)
{
int p = 1;
int len = strlen(s);
for (int i = 0; i < len; i++)
{
int c = s[i] - 'a';
if (!trie[p][c])
{
trie[p][c] = s[i];
}
p = trie[p][c];
}
is_word[p] = true;
}
- 搜索
这个和插入很相似,当我们需要搜索字符串 s 时,我们将一个指针 p 指向根节点,然后,依次扫描 s 中的每个字符。
① 若 p 当前指向节点不空(即当前字符和树中存储的字符相同),则令 p 指向该节点(相当于指向下一个字符继续搜索);
② 若 p 当前指向节点为空(即当前字符和树中存储的字符不同),那么肯定不存在该单词;
③ 当 s 中的字符扫描完毕时,返回单词标记(is_word[i])。(这时为什么不能返回 true 呢?我举个例子,假如字典树里面只存储了一个单词 and,当我们查询 “a” 时也能够正常结束循环,但是里面没有存储 “a” 单词,即 is_word[p] 是 false ,所以你不能返回 true 。)
bool search(const char* s)
{
int len = strlen(s);
int p = 1;
for (int i = 0; i < len; i++)
{
int c = s[i] - 'a';
p = trie[p][c];
if (!p)
{
return false;
}
}
return is_word[p];
}
测试
#include <iostream>
#include <cstring>
using namespace std;
/* 字典树 */
const int MAX_SIZE = 100000;
char trie[MAX_SIZE][26];
bool is_word[MAX_SIZE];
void insert(const char *s)
{
int p = 1;
int len = strlen(s);
for (int i = 0; i < len; i++)
{
int c = s[i] - 'a';
if (!trie[p][c])
{
trie[p][c] = s[i];
}
p = trie[p][c];
}
is_word[p] = true;
}
bool search(const char* s)
{
int len = strlen(s);
int p = 1;
for (int i = 0; i < len; i++)
{
int c = s[i] - 'a';
p = trie[p][c];
if (!p)
{
return false;
}
}
return is_word[p];
}
int main()
{
insert("and");
insert("a");
cout << search("a") << endl;// 1
cout << search("an") << endl;// 0
return 0;
}