原文地址:http://blog.csdn.net/ariesjzj/article/details/7969307
Trie树,又称前缀树,字典树,是字符串处理,尤其是匹配问题中的一大利器。其特点是结点表示的字符不是直接存在结点中,而是由其位置决定。Trie树的root节点为空结点,从root节点到每个结点的路径上的字符组成的字符串为该结点所代表的字符串。每个结点的两个子结点必不相同,因此相同的字符串前缀只保存一次。插入,查询时间复杂度均为O(n),n为字符串长度。
关于实现,网上有许多模板,但一般用到具体问题中总是需要改一下的。这里举两个例子:
1. http://poj.org/problem?id=3630。这是一道比较直白的题,特点在于字符串包含的不是字母而是数字,因此每个结点的孩子个数为10而非26,Base也为'0'而非'a'。另外test case中貌似包含一些比较大规模的用例,每次要用新结点得从pool里拿而不要new,否则肯定超时。
#include <iostream>
#include <fstream>
#include <algorithm>
#include <string.h>
using namespace std;
#define MAX_NODE_NUM 100005
const int CHILD_NUM = 10;
const int BASE = '0';
typedef struct Trie {
bool terminal;
Trie *child[CHILD_NUM];
} Trie;
int nodenum = 1;
Trie node[MAX_NODE_NUM];
void reset()
{
memset(node, 0, sizeof(Trie) * nodenum);
}
void insert(Trie* pt, char* s, int len)
{
Trie* temp = pt;
for (int i = 0; i < len; ++i) {
if (NULL == temp->child[s[i] - BASE])
temp->child[s[i]-BASE] = &node[nodenum++];
temp = temp->child[s[i] - BASE];
}
temp->terminal = true;
}
bool is_consistent(Trie* pt, char* s, int len)
{
Trie* temp = pt;
for (int i = 0; i < len; ++i) {
if (temp->terminal)
return 0;
if (NULL != temp->child[s[i] - BASE])
temp = temp->child[s[i] - BASE];
else
return 1;
}
if (!temp->terminal)
return 0;
return 1;
}
int main()
{
ifstream cin("data.txt");
int i, j;
int N, M;
char buf[11];
reset();
Trie * t = &node[0];
cin >> N;
for (i = 0; i < N; ++i) {
nodenum = 1;
cin >> M;
int flag = 0;
for (j = 0; j < M; ++j) {
cin >> buf;
if (!flag) {
if (!is_consistent(t, buf, strlen(buf)))
flag = 1;
insert(t, buf, strlen(buf));
}
}
if (flag)
cout << "NO" << endl;
else
cout << "YES" << endl;
reset();
}
return 0;
}
2. http://poj.org/problem?id=1816 。因为引入了通配符?和*,除了结点的孩子个数增加2以外,更重要的是*号是要特殊处理的。特殊在于两方面,一方面当遇到*时,它可匹配最少0个,最多匹配到字符串末尾。另一方面在于当pattern末尾有*时,是可以被忽略的。
#include <iostream>
#include <fstream>
#include <vector>
#include <algorithm>
#include <string.h>
using namespace std;
const int ChildNum = 28;
const int Base = 'a';
int chr2idx(char a)
{
if (a >= 'a' && a <= 'z')
return a - Base;
else if ('?' == a)
return 26;
else if ('*' == a)
return 27;
}
vector<int> res;
typedef struct Trie {
vector<int> v;
Trie *child[ChildNum];
} Trie;
Trie* NewTrie()
{
Trie* temp = new Trie;
for (int i = 0; i < ChildNum; ++i)
temp->child[i] = NULL;
return temp;
}
void Insert(Trie* pt, char* s, int idx)
{
Trie* temp = pt;
for (int i = 0; i < strlen(s); ++i) {
if (NULL == temp->child[chr2idx(s[i])]) {
temp->child[chr2idx(s[i])] = NewTrie();
}
temp = temp->child[chr2idx(s[i])];
}
temp->v.push_back(idx);
}
void Delete(Trie* pt)
{
if (NULL != pt) {
for (int i = 0; i < ChildNum; ++i)
if (NULL != pt->child[i])
Delete(pt->child[i]);
delete pt;
pt = NULL;
}
}
void Find(Trie* pt, char* s, int i)
{
Trie* temp = pt;
int j;
if (s[i] != 0) {
if (temp->child[chr2idx(s[i])])
Find(temp->child[chr2idx(s[i])], s, i + 1);
if (temp->child[chr2idx('?')])
Find(temp->child[chr2idx('?')], s, i + 1);
if (temp->child[chr2idx('*')])
for (j = i; j <= strlen(s); ++j) // * could consume 0 ~ strlen(s) - i chars
Find(temp->child[chr2idx('*')], s, j);
} else {
for (int i = 0; i < temp->v.size(); ++i )
res.push_back(temp->v[i]); // if not leaf node, temp.v should be empty
if (pt->child[chr2idx('*')])
Find(pt->child[chr2idx('*')], s, i);
}
}
int main()
{
ifstream cin("data.txt");
int N, M;
int i, j;
char pattern[10];
char word[30];
Trie * trie = NewTrie();
cin >> N >> M;
for (i = 0; i < N; ++i) {
cin >> pattern;
Insert(trie, pattern, i);
}
for (i = 0; i < M; ++i) {
res.clear();
cin >> word;
Find(trie, word, 0);
if (!res.size())
cout << "Not match" << endl;
else {
sort(res.begin(), res.end());
res.resize(distance(res.begin(), unique(res.begin(), res.end())));
for (j = 0; j < res.size(); ++j)
cout << res[j] << " ";
cout << endl;
}
}
Delete(trie);
return 0;
}