Trie(字典)树

原文地址:http://blog.csdn.net/ariesjzj/article/details/7969307

 

Trie树,又称前缀树,字典树,是字符串处理,尤其是匹配问题中的一大利器。其特点是结点表示的字符不是直接存在结点中,而是由其位置决定。Trie树的root节点为空结点,从root节点到每个结点的路径上的字符组成的字符串为该结点所代表的字符串。每个结点的两个子结点必不相同,因此相同的字符串前缀只保存一次。插入,查询时间复杂度均为O(n),n为字符串长度。

 

关于实现,网上有许多模板,但一般用到具体问题中总是需要改一下的。这里举两个例子:

 

1. http://poj.org/problem?id=3630。这是一道比较直白的题,特点在于字符串包含的不是字母而是数字,因此每个结点的孩子个数为10而非26,Base也为'0'而非'a'。另外test case中貌似包含一些比较大规模的用例,每次要用新结点得从pool里拿而不要new,否则肯定超时。

#include <iostream>
#include <fstream>
#include <algorithm>
#include <string.h>
using namespace std;

#define MAX_NODE_NUM	100005

const int CHILD_NUM = 10;
const int BASE = '0';

typedef struct Trie {
	bool terminal;	
	Trie *child[CHILD_NUM];	
} Trie;

int nodenum = 1;
Trie node[MAX_NODE_NUM];

void reset()
{
	memset(node, 0, sizeof(Trie) * nodenum);
}

void insert(Trie* pt, char* s, int len)
{
	Trie* temp = pt;
	for (int i = 0; i < len; ++i) {
		if (NULL == temp->child[s[i] - BASE])
			temp->child[s[i]-BASE] = &node[nodenum++];
		temp = temp->child[s[i] - BASE];
	}
	temp->terminal = true;
}

bool is_consistent(Trie* pt, char* s, int len)
{
	Trie* temp = pt;
	for (int i = 0; i < len; ++i) {
		if (temp->terminal) 
			return 0;
		if (NULL != temp->child[s[i] - BASE]) 
			temp = temp->child[s[i] - BASE];
		else
			return 1;
	}
	if (!temp->terminal) 
		return 0;
	return 1;
}

int main()
{
	ifstream cin("data.txt");
	int i, j;
	int N, M;
	char buf[11];
	reset();
	Trie * t = &node[0];

	cin >> N;

	for (i = 0; i < N; ++i) {
		nodenum = 1;

		cin >> M;
		int flag = 0;
		for (j = 0; j < M; ++j) {
			cin >> buf;
			if (!flag) {
				if (!is_consistent(t, buf, strlen(buf)))
					flag = 1;

				insert(t, buf, strlen(buf));
			}
		}
		if (flag)
			cout << "NO" << endl;
		else
			cout << "YES" << endl;
		reset();
	}

	return 0;
}

 

2. http://poj.org/problem?id=1816 。因为引入了通配符?和*,除了结点的孩子个数增加2以外,更重要的是*号是要特殊处理的。特殊在于两方面,一方面当遇到*时,它可匹配最少0个,最多匹配到字符串末尾。另一方面在于当pattern末尾有*时,是可以被忽略的。

#include <iostream>
#include <fstream>
#include <vector>
#include <algorithm>
#include <string.h>
using namespace std;

const int ChildNum = 28;	
const int Base = 'a';

int chr2idx(char a)
{
	if (a >= 'a' && a <= 'z')
		return a - Base;
	else if ('?' == a)
		return 26;
	else if ('*' == a)
		return 27;
}

vector<int> res;

typedef struct Trie {
	vector<int> v;
	Trie *child[ChildNum];	
} Trie;

Trie* NewTrie()
{
	Trie* temp = new Trie;
	for (int i = 0; i < ChildNum; ++i) 
		temp->child[i] = NULL;
	return temp;
}

void Insert(Trie* pt, char* s, int idx)
{
	Trie* temp = pt;
	for (int i = 0; i < strlen(s); ++i) {
		if (NULL == temp->child[chr2idx(s[i])]) {
			temp->child[chr2idx(s[i])] = NewTrie();
		}
		temp = temp->child[chr2idx(s[i])];
	}
	temp->v.push_back(idx);
}


void Delete(Trie* pt)
{
	if (NULL != pt) {
		for (int i = 0; i < ChildNum; ++i)
			if (NULL != pt->child[i])
				Delete(pt->child[i]);
		delete pt;
		pt = NULL;
	}
}

void Find(Trie* pt, char* s, int i)
{
	Trie* temp = pt;
	int j;

	if (s[i] != 0) {
		if (temp->child[chr2idx(s[i])]) 
			Find(temp->child[chr2idx(s[i])], s, i + 1);		
		if (temp->child[chr2idx('?')]) 
			Find(temp->child[chr2idx('?')], s, i + 1);	
		if (temp->child[chr2idx('*')])  
			for (j = i; j <= strlen(s); ++j)	// * could consume 0 ~ strlen(s) - i chars
				Find(temp->child[chr2idx('*')], s, j);
	} else {
		for (int i = 0; i < temp->v.size(); ++i )
			res.push_back(temp->v[i]);  // if not leaf node, temp.v should be empty
		if (pt->child[chr2idx('*')])
			Find(pt->child[chr2idx('*')], s, i);
	}
}

int main()
{
	ifstream cin("data.txt");
	int N, M;
	int i, j;
	char pattern[10];
	char word[30];

	Trie * trie = NewTrie();

	cin >> N >> M;
	for (i = 0; i < N; ++i) {
		cin >> pattern;
		Insert(trie, pattern, i);
	}
	for (i = 0; i < M; ++i) {
		res.clear();
		cin >> word;

		Find(trie, word, 0);
		
		if (!res.size())
			cout << "Not match" << endl;
		else {
			sort(res.begin(), res.end());
			res.resize(distance(res.begin(), unique(res.begin(), res.end()))); 
			for (j = 0; j < res.size(); ++j) 
				cout << res[j] << " ";
			cout << endl;
		}
	}

	Delete(trie);
	return 0;
}


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值