用Hash Table(哈希散列表)实现统计文本每个单词重复次数(频率)

本文介绍如何使用哈希散列表统计文本文件中每个单词的出现次数。通过哈希函数将单词映射为Key值,利用链地址法解决冲突,实现高效查找。详细讲解了数据结构定义和实现代码,并提供了测试说明。
摘要由CSDN通过智能技术生成

哈希表在查找方面有非常大应用价值,本文记录一下利用哈希散列表来统计文本文件中每个单词出现的重复次数,这个需求当然用NLP技术也很容易实现。

 

一、基本介绍

   1、Hash Key值:将每个单词按照字母组成通过一个乘子循环运算得出一个小于29989的整数,29989是一个比较大的质数。0~29989即为Key值。

   2、哈希函数:

1 //哈希函数
2 unsigned int hashIndex(const char* pWord)   //返回hash表的索引(即hash指针数组的下标)
3 {
4     assert(pWord != NULL);
5     unsigned 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值