用hash表统计文本文件中每个单词出现的频率

最新推荐文章于 2025-02-13 07:00:00 发布

shangshanhu

最新推荐文章于 2025-02-13 07:00:00 发布

阅读量8.1k

点赞数 5

分类专栏： c/c++ 文章标签： null fp path file struct 数据结构

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shangshanhu/article/details/5917230

版权

闲来无事，敲两行代码解解愁。

今天介绍一种用自已建立的hash表（hash链表）来统计一个输入文本文件中每个单词出现的频率，hash表的构造详见《编程珠玑》第15章。

一、主体思路：

(1)建立一个hash表；

--(a) hash函数：除留取余法，H(key) = key % size；

--(b) 解决冲突的方法：链地址法，将所有映射到相同索引的字符串用链接指针连接在一起。

(2)读取文本文件word.txt，每次读取一行，然后分隔每个单词，插入到hash表，插入过程中会对单词出现次数统计；

(3)将整个hash表内容写到一个文本文件result.txt中。

二、数据结构及算法实现

(1)hash表

--(a) hash表大小(HASHNUMBER)：采用一个大质数作为表的总容量，本例中为HASHNUMBER29989；

#define HASHNUMBER 29989 //散列表的大小，29989为质数。
#define MULT 31 //hash函数的一个乘子。

typedef struct hashnode

        {//链表中每个节点的结构
   hashnode()
           {
              word = NULL;
              count = 0;
              next = NULL;
           }
           char * word;//单词
           int count;//出现频率
           struct hashnode *next;//指向链表中具有相同hash值的下个节点
       }hashNode,*hashNodePtr ;

hashNodePtr bin[HASHNUMBER] = { NULL};//HASHNUMBER大小的指针数组作为hash表。

--(b) hash函数：将每个单词映射为一个小于HASHNUMBER的正整数；

   unsigned int hashIndex(const char * pWord)//返回hash表索引（即hash指针数组的下标）。
      {
      assert(pWord != NULL);
          unsigned int index = 0; //以下四行为将一个单词映射到一个小于HASHNUMBER的正整数的函数。
   for(;*pWord != '/0';pWord++)
               index = MULT * index + *pWord;
   return index % HASHNUMBER;
      }

--(c) 向hash表中插入单词。

void insertWord (const char * pWord )// 在hash 表中插入单词，如果已经存在了，则增加单词的出现次数count 。

{

assert (pWord != NULL );

hashNodePtr p ;

unsigned int index = hashIndex (pWord );//用(b)中的hash函数得到单词在hash表中的下标。

for (p =bin [index ];p != NULL ;p = p ->next )

{ //

最低0.47元/天解锁文章

评论 17

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。