用Trie树统计词频。

本文介绍了Trie树的性质和构造方法,重点应用于统计文本中单词的出现频率。通过建立Trie树,可以高效地存储和检索单词,尤其在处理含有大量相同前缀的单词时表现出色。示例代码展示了如何构建Trie树并统计词频。
摘要由CSDN通过智能技术生成

Abstract

介绍Trie树的性质和构造方法。
最终用来统计一片文章各个单词出现的频率。

最终结果:
最终结果

Trie

Trie树是一种数据结构,对于词频统计,文本检索非常有效。
Trie树的大小取决与要统计的文本的字母个数。比如只统计26个英文字母的话,单词最大长度为10的话,占用的空间最多是26^10。但实际上并没有这么恐怖。因为没有abc这样的单词。

在Trie中,将没一个字母作为一个node,其中含有几个信息

c#define R 26
typedef struct node
{
    int value;// ASCII码
    int frequecy;//c出现的频率
    struct node* child[R];//有R个孩子,初始为NULL

}Node;

下面用hello这个单词举例子。
第一个节点是h,且h有一个孩子l。往后类似。到了最后的o,此时才是一个真正的单词,所以o的frequecy为1.
图片描述
建立Trie树的时候,每次都是从Root出发&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值