词频统计实现方法大致思路（软工个人作业一）

最新推荐文章于 2024-01-19 14:58:30 发布

diazi3559

最新推荐文章于 2024-01-19 14:58:30 发布

阅读量522

点赞数

文章标签：数据结构与算法

原文链接：http://www.cnblogs.com/ustckx16/p/8627745.html

版权

基本功能

1. 统计文件的字符数
2. 统计文件的单词总数
3. 统计文件的总行数
4. 统计文件中各单词的出现次数
5. 对给定文件夹及其递归子文件夹下的所有文件进行统计
6. 统计两个单词（词组）在一起的频率，输出频率最高的前10个。
7. 在Linux系统下，进行性能分析，过程写到blog中（附加题）

数据结构：
characterNum 字符数全局变量
wordNum 单词总数全局变量
lineNum 总行数全局变量
采用结构体数组（动态内存）存储单词及其出现次数

struct wordInfo {
char* wordStr;
int* nextWordFrequency[26];
int frequency;
};
struct alphaArray {
wordInfo* wordArray;
int total;
};

alphaArray dictionary[26];

遍历文件的方法：
_findfirst,_findnext函数实现，参考例程：https://www.cnblogs.com/ranjiewen/p/5960976.html

实现方案：
初始化各变量
遍历给定文件夹中的每个文件
只读方式打开符合要求的文件
单词统计
循环至所有文件遍历完成
关闭文件
输出统计结果

单词统计函数：
遍历字符并统计
判断是否是换行符并统计
建立缓冲区域存储一个单词中连续的字符
采集单词字符串
生成单词的哈希值（散列函数使用ELFHash、冲突解决方案采用二次探测）
根据首字母和哈希值确定单词的存储位置并存储单词信息
将当前单词的存储位置映射到前一个单词的nextWordFrequency[26][]矩阵当中，实现词组频率统计

统计规则：
http://www.cnblogs.com/denghp83/p/8627840.html

统计方法：
1.判断是否是ASCII码字符，若是，字符计数加一；若是换行符，行数加一
2.将间隔符之间的内容读入临时数组，用变量记录最后一个字母在数组中的位置
3.提取单词主体（除去最后的数字部分），产生哈希值
4.根据哈希值查找对应单元是否已经存在该单词，若存在，则该单词频率加一且按照词典顺序更新单词；若不存在，根据散列函数继续查找，直到找到同样的单词或者空闲的空间，更新或者记录单词信息

转载于:https://www.cnblogs.com/ustckx16/p/8627745.html

diazi3559

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
词频统计实现方法大致思路（软工个人作业一）

基本功能1.统计文件的字符数2.统计文件的单词总数3.统计文件的总行数4.统计文件中各单词的出现次数5.对给定文件夹及其递归子文件夹下的所有文件进行统计6.统计两个单词（词组）在一起的频率，输出频率最高的前10个。7.在Linux系统下，进行性能分析，过程写到blog中（附加题）数据结构：characterNum 字符数全局变量wordNum 单词总数全局...
复制链接

扫一扫