c语言词频统计单链表,浅析基于单链表和散列表比较的词频统计研究.doc

技术应用论文:基于单链表和散列表比较的词频统计研究

摘要:针对操作系统课程中的词频统计实验,介绍两种分别采用单链表和散列表进行词频统计的方法,并着重说明后一种方法在效率方面的优越性。

关键词:单链表;散列表;词频统计;效率

在操作系统课程中,词频统计实验具有重要的理论价值和实用价值,一直受到广大师生的重视。该实验要求编写程序,读取一个文件,对该文件中的英文文章进行词频统计,并把统计结果存放到另一个文件中。程序的功能并不复杂,大多数学生都能完成,但是程序的效率往往不尽如人意。采用单链表和散列表进行词频统计都是该实验常用的方法。从效率方面来看,后一种方法明显优于前一种方法。

1采用单链表进行词频统计

1.1概述

在该实验中,大多数学生采用单链表进行词频统计。这种方法简洁明了,易于理解,但是程序每次从文件中读取一个单词后,都要在单链表中顺序查找该单词,这就大大降低了程序的效率。下面通过程序流程图和部分代码来说明采用单链表进行词频统计的具体过程。

1.2解决方案

1.2.1数据结构

由于程序最后要输出各单词及其出现的次数,因此要声明一个结构体类型。分别使用char型数组和int型变量存储单词及其出现的次数。这样在输出统计结果时,只要遍历单链表即可。

typedef struct wordNode

{

char word[length];

int iWordCount;

wordNode *pNext;

} wordNode;

1.2.2程序流程图

程序每次从文件中读取一个单词,删除该单词末尾可能带有的标点符号后,在单链表中顺序查找该单词。如果查找到该单词,那么把该单词出现的次数加1,不再继续查找。如果没有查找到该单词,那么把该单词插入到单链表的尾部,并把该单词出现的次数置1。等到文件中的所有单词都处理完毕后,输出统计结果。程序流程图如图1所示。

1.2.3处理单词细节

按照英文书写习惯,标点符号一般紧跟在前一个单词之后。当程序从文件中读取一个单词时,由于一旦遇到空格或换行即认为单词读取完毕,因此会出现单词和标点符号一并读取的情况。所以要定义一个函数Clip(),删除单词末尾的标点符号。对读取的单词,要判断最后一个字符是否为字母,若不是字母则将其删除。不过单词末尾的标点符号也存在一些特殊情况。例如,“a.m.”和“Mr.”等是特定的缩写,最后的“.”不能删除;“students’”最后的“’”表示复数所有格,也不能删除。以下是函数Clip()的具体代码,对有些特殊情况无法一一列举,这也是该函数不完善之处。

此外,当某个单词出现在句首和句中时,首字母有大小写之分,这会导致使用函数strcmp()判断它们是否相同时,把它们误判为不相同。所以要定义一个函数Change(),把单词中的大写字母转化为小写字母,以消除由于大小写不一致而导致的误判。以下是函数Change()的具体代码。

void Change(char *current)

1.3分析

采用单链表进行词频统计的主要操作是在单链表中进行顺序查找和在单链表尾部进行插入。程序每次从文件中读取一个单词后,都要在单链表中顺序查找该单词。反复在单链表中进行顺序查找,会大大降低程序的效率。以一篇300词的英文文章为例,在最坏情况下,即300个单词都不一样,单词之间所进行的比较次数达到0 + 1 + 2 + ? + 298 + 299 = 44850。在该实验中,发现大多数学生使用短篇英文文章来测试程序,所以虽然程序的效率较低,但是在运行时间上体现得并不十分明显。若使用10M大小的英文文章来测试程序,则运行时间会长达半分钟之久。因此,如果要对长篇英文文章进行词频统计,那么采用单链表是不太合适的。

2采用散列表进行词频统计

更多经典论文: ;folderId=62133

更多经典论文: ;folderId=62133

2.1概述

查找的效率取决于查找过程中关键字之间所进行的比较次数。散列表是表示集合的一种有效方法,它提供了一种特殊的存储和查找方式,通过把记录的关键字映射到表中的地址来存储记录,并根据记录的关键字用同样的方式直接查找[1]279。

在该实验中,采用散列表进行词频统计可以明显减少查找过程中单词之间所进行的比较次数,大大提高查找的效率。

2.2散列与散列函数简介

以往考虑的查找方法,是以关键字之间所进行的比较为基础,根据它们的大小来进行判定的[2]。由于查找是不少程序运行时最耗时的部分,因此使用好的查找方法常会明显减少运行时间。理想的查找方法是,根据待查记录的关键字直接得到它的存储地址,而不必把待查记录的关键字和集合中某些记录的关键字逐个比较。在记录的关键字和它的存储地址之间建立一个确定的对应关系hash(),使关键字key和存储

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值