Trie树词频统计实例

Trie树简介

Trie树,也叫前缀字典树,是一种较常用的数据结构。常用于词频统计,
字符串的快速查找,最长前缀匹配等问题以及相关变种问题。

数据结构表现形式如下图所示:
这里写图片描述

Trie树的根为空节点,不存放数据。每个节点包含了一个指针数组,数组大小通常为26,即保存26个英文字母(如果要区分大小则数组大小为52,如果要包括数字,则要加上0-9,数组大小为62)。
可以想象它是一棵分支很庞大的树,会占用不少内存空间;不过它的树高不会唱过最长的字符串长度,所以查找十分快捷。典型的用空间换取时间。

全英圣经词频统计

全英圣经TXT文件大小有4m,若要对它进行词频统计等相关操作,可以有许多方法解决。
我觉得可以用如下方式:

  1. pthon字典数据结构解决
  2. 在linux下利用sed & awk 文本处理程序解决
  3. C++ STL map解决
  4. Trie树解决

前三种实现比较简单快捷,不过通过自己封装Trie树可以练习一下数据结构!感受一下数据结构带来的效率提升,何乐而不为。

下面则是我的具体实现,如有纰漏,敬请指正!

1)自定义头文件

WordHash用来记录不重复的单词及其出现次数
TrieTree类封装得不太好,偷懒把很多属性如行数,单词总数等都放在public域

#ifndef _WORD_COUNT_H
#define _WORD_COUNT_H

#include<stdio.h>
#include<string.h>
#include<string>
#include<fstream>
#include<sstream>
#include<vector>
#include<iterator>
#include<algorithm>
#include<iostream>

using std::string;
using std::vector;

typedef struct tag {
    char word[50];  //单个单nt show_times; //出现次数
    int show_times; //出现次数
}WordHash;

const int child_num = 26;

//字典树节点
typedef struct Trie {
    int count;
    struct Trie *next_char[child_num];
    bool is_word;

    //节点构造函数
    Trie(): is_word(
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值