文章目录
1.Trie树介绍
Trie树,又叫字典树、前缀树,被广泛的应用在字符串匹配,搜索引擎关键词联想等问题上。
Trie树是一种多叉树,具有以下性质:
- root节点不代表字符,除了根节点以外的所有节点每个都代表一个字符
- 从根节点遍历到任意一个节点,遍历到的所有节点代表的字符连起来为该路径代表的字符串
- 每个节点的孩子节点代表的字符串各自不相同
因此可以发现,前缀树把字符串存储在数的遍历路径上,而非节点上。拥有相同前缀的字符串对应的遍历前缀路径相同,这样在业务中涉及大量拥有相同前缀的字符串时可以大量复用空间,节省开销。
By the way, 通常在设计前缀树节点的时候回加入一个数值来记录字符串的词频,同时可以标记该路径是一个前缀还是实际的单词。
2.Trial树的优缺点
Trie树的核心思想是用空间换时间,利用字符串大量存在的公共前缀来减少无谓的字符串比较,从而达到提高查询效率的目的。
2.1 优点
- 插入和查询的效率很高, T ( n ) = O ( k ) T(n) = O(k) T(n)=O(k), k k k为要插入和查询的字符串长度
- 相比较hash表或者hash树,不同的关键字之间不会发生冲突
- 不需要求hash值,对于短字符串较多的场景有明显优势
- 很好地支持了对关键字按照字典序排列
2.2 缺点
- 相比于hash方法,如果场景能够使用的hash函数足够好的话,Trie树查找的效率远低于hash方法
- 每个节点的孩子节点为字符表的长度,空间开销大
3.Trie的典型应用
3.1 字符串检索
从根节点向下遍历,如果字符串所有字符都有匹配的话,检查最后一个节点的标志(词频),判断是一个前缀还是一个实际的单词。
3.2 词频统计
同3.1进行字符串的检索,通过最后一个节点的标志来获得出现的词频。
3.3 字符串排序
Trie树可以对大量字符串按字典序进行排序,思路也很简单:遍历一次所有关键字,将它们全部插入trie树,树的每个结点的所有孩子很显然地按照字母表排序,然后先序遍历输出Trie树中所有关键字即可。
3.4 前缀匹配
移动指针到指定前缀路径开头节点,然后输出所有遍历结果即可。
3.5作为其他数据结构和算法的辅助结构
后缀树,AC自动机…
4.Trie树的实现(LeetCode208)
class Trie {
private:
// 节点定义
struct TrieNode
{
// 统计词频
int count;
// 子节点
TrieNode* children[26];
};
// 根节点
TrieNode* root;
// 创建节点
TrieNode* createTrieNode()
{
TrieNode* node = new(TrieNode);
node->count = 0;
for(int i = 0; i < 26;i++)
{
node->children[i] = NULL;
}
return node;
}
public:
// 类的初始化
Trie() {
root = createTrieNode();
}
// 字符串插入
void insert(string word) {
TrieNode* p = root;
for(int i = 0; i < word.size();i++)
{
if(p->children[word[i]-'a'] == NULL)
{
p->children[word[i]-'a'] = createTrieNode();
p = p->children[word[i]-'a'];
}
else
{
p = p->children[word[i]-'a'];
}
if(i == word.size()-1)
{
p->count += 1;
}
}
}
// 字符串查询
bool search(string word) {
TrieNode* p = root;
for(int i = 0; i < word.size();i++)
{
if(p->children[word[i]-'a'] == NULL) return false;
else p = p->children[word[i]-'a'];
if(i == word.size() - 1)
{
if(p -> count == 0) return false;
else return true;
}
}
return false;
}
// 前缀匹配
bool startsWith(string prefix) {
TrieNode* p = root;
for(int i = 0; i < prefix.size();i++)
{
if(p->children[prefix[i]-'a'] == NULL) return false;
else p = p->children[prefix[i]-'a'];
}
return true;
}
};