Tire树求出现次数最多单词

最新推荐文章于 2021-08-21 20:23:41 发布

my_et

最新推荐文章于 2021-08-21 20:23:41 发布

阅读量997

点赞数

分类专栏：数据结构文章标签： Tire树

本文链接：https://blog.csdn.net/my_et/article/details/9095993

版权

数据结构专栏收录该内容

12 篇文章 0 订阅

订阅专栏

Tire树又称字典树

Tire树核心的思想是以空间换时间，每个节点下面分26叉，需要统计一个单词比如abc,这时候先找根节点，然后由a分支到a节点，然后在a节点里面找b分支，然后到b节点去找c分支，最后将该节点的单词计数器加1.

1.Tire树每个节点的定义

class TireNode
{
public:
	char c;
	int count;
	TireNode *next[26];
	TireNode()
	{
		c='0';
		count=0;
		for(int i=0;i<26;i++)
			next[i]=NULL;
	}
	~TireNode()
	{
		for(int i=0;i<26;i++)
			if(next[i]!=NULL)
				delete  next[i];
	}
};

2.Tire树遍历

在统计完节点后，对其遍历，目前我只弄了一个递归的遍历，过几天研究非递归的遍历

在遍历的过程中同时用一个最小堆保存当前的出现频率最高的单词，如果一旦新遍历的单词出现的次数大于堆顶元素，更新堆

算法描述

1.给定Tire树节点，如果该节点为NULL返回

2.将其节点字母压栈，如果该节点计数器不为0，记录之，并且利用该信息更新堆操作

3.以本方法遍历其26个后继节点

4.弹栈操作

void Travel(TireNode *node)
{
	if(node==NULL)
		return;
	stk.PushIn(node->c);
	if(node->count!=0)
	{
		stk.PrintStack(node->count);
		heap.CMP(node->count,stk.GetTrace());
	}
	int i=0;
	for(;i<26;i++)
		Travel(node->next[i]);
	stk.Pop(); //这里注意弹栈不要影响将来遍历的轨迹
}

3.在遍历的过程中对于更新堆的思路

1.建立一个出现次数--单词的映射，每次调整堆的时候，单词也要交换，但是这样做复制单词比较耗时

2.在1的基础上建立两层映射出现次数---索引---单词，这样一来每次每次只有在更新堆的时候有单词的复制，在调整堆的时候只需要将索引和次数一起调整即可，不用额外去复制单词。实现如下所示

void shift(int low,int high) //堆排序调整
	{
		int temp[1][2];
		temp[0][0]=map[low][0];    //记录次数
		temp[0][1]=map[low][1];    //记录索引
		int i=low;
		int j=2*i;
		int k;
		bool finshed=false;

		while(j<=high&&!finshed)
		{
			if(j<high&&map[j+1][0]<map[j][0])
				j=j+1;
			if(map[i][0]<map[j][0])
				finshed=true;
			else
			{
				k=map[i][0];
				map[i][0]=map[j][0];
				map[j][0]=k;

				k=map[i][1];
				map[i][1]=map[j][1];
				map[j][1]=k;
				i=j;
				j=2*i;
			}
		}
		map[i][0]=temp[0][0];
		map[i][1]=temp[0][1];
	}

Tire树在实际应用中一般用于查找单词的前缀，统计单词的出现的次数，Baidu 的Suggestion的实现就是基于Tire树的。

4.复杂度分析

Tire树在查找时同时可以完成插入操作，因此完成统计用时为O(N*len)

遍历的时候最坏情况下每次都要更新堆，用时为O(N*(logK+len))

5.在实现中遇到的问题

1.在字符串拷贝时候自增计数器要加上

2.堆排序在计算下标时候用到乘法，方便起见，下标从1开始而不是0

3.在调用函数时分配在栈上面的变量是不能返回的如 char str[20]

my_et

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Tire树求出现次数最多单词

Tire树又称字典树 Tire树核心的思想是以空间换时间，每个节点下面分26叉，需要统计一个单词比如abc,这时候先找根节点，然后由a分支到a节点，然后在a节点里面找b分支，然后到b节点去找c分支，最后将该节点的单词计数器加1.1.Tire树每个节点的定义class TireNode{public: char c; int count; Tir
复制链接

扫一扫