英文小说词频统计

这篇博客介绍了一种用C语言实现的英文小说单词频率统计方法。程序需要处理不同数量级的单词,包括100以内的初步测试和100万以上的压力测试。设计要求包括忽略大小写、不计破折号或空格分隔的单词,并能以O(m)的时间复杂度查询词频。
摘要由CSDN通过智能技术生成

   语言学家需要分析若干本英文小说里面的单词出现的频率,这些文件已经存储在文本文件中,你需要按字典编排顺序输出有多少单词,以及每个单词出现的次数。

设计要求:

①初步正确性测试的单词量在100以内,压力测试数据量达到100万单词以上。

②字母不区分大小写,不考虑以破折号或者空格分开的单词

③单词长度不限,以测试集中出现的单词长度为准

④提供查询词频的接口,能够在O(m)的时间复杂度内查询出结果,其中m为单词长度

源代码

#include<stdio.h>
#include <string.h>
#include<stdlib.h>
static int sum=0; 
typedef struct word_node {
	char s;
	word_node *nextChar[26];
	int count;
}word_node,*word_tree;
 
//遍历字符串,建立字典树
void addNode(word_tree &w_node, char *str, int &index) 
{
	if (w_node == NULL) {
		w_node = (word_tree)malloc(sizeof(word_node));
		for (int i = 0; i < 26; i++)
			w_node->nextChar[i] = NULL;
		w_node->count = 0;
	}
	w_node->s = str[index];
	index++;
	if (str[index] >= 'a'&&str[index] <= 'z')
		addNode(w_node->nextChar
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值