Abstract
介绍Trie树的性质和构造方法。
最终用来统计一片文章各个单词出现的频率。
最终结果:
Trie
Trie树是一种数据结构,对于词频统计,文本检索非常有效。
Trie树的大小取决与要统计的文本的字母个数。比如只统计26个英文字母的话,单词最大长度为10的话,占用的空间最多是26^10。但实际上并没有这么恐怖。因为没有abc这样的单词。
在Trie中,将没一个字母作为一个node,其中含有几个信息
c
#define R 26 typedef struct node { int value;// ASCII码 int frequecy;//c出现的频率 struct node* child[R];//有R个孩子,初始为NULL }Node;
下面用hello这个单词举例子。
第一个节点是h,且h有一个孩子l。往后类似。到了最后的o,此时才是一个真正的单词,所以o的frequecy为1.
建立Trie树的时候,每次都是从Root出发&