编程珠玑: 15.1实现一个哈希表统计字符串出现次数 -------解题总结

#include <iostream>
#include <stdio.h>
#include <string>
#include <vector>

using namespace std;
/*
问题:统计书中的单词及出现次数,实现一个数据结构进行存储
分析:典型的信息检索中的倒排索引问题。可以采用链表数组实现: 哈希 + 拉链法
      一种做法是:根据给定的单词个数n,选取最接近n的质数k,然后对字符串进行散列,
	  h = 31 * h + charValue;
	  求得字符串的哈希值后,用h % k 得到散列后的哈希值

输入:
10(单词个数)
zhu wen ping ma chao ma yan ma xi ping 
输出:(单词以及单词出现次数)
zhu:1, wen:1, ping:2, ma:3, chao:1, yan:1, xi:1

关键:
1 哈希表的实现:根据给定的单词个数n,选取最接近n的质数k,然后对字符串进行散列,
	  h = 31 * h + charValue;
	  求得字符串的哈希值后,用h % k 得到散列后的哈希值

2
接下来是要建立散列表,散列表的长度,散列中的乘数为31
散列值计算公式:设一个字符串val共有n个字符,则计算的哈希值为
h = 31 ^ (n-1) * val[0] + 31 ^ (n-2) * val[1] + 31 ^ (n-3) * val[2] + ...+ val[n-1]  
选用31作为乘数的原因是:
  1】对于任意数i, 31 * i = (i << 5) - i,可以用移位和减法代替乘法,可以优化
  2】31是质数,只能被1和自身整除,既要保证31乘以字符串不能溢出,又要保证哈希地址较大,来减少冲突,
  综合来说:31是个不错的乘数

3 素数筛选法
	int* primeArr = new int[num + 1];//用于判定是否为素数的数组,初始化为0,表示都是质数
	// sizeof(指针)都是4,strlen只是用来计算字符串长度,整形指针不行 
	int* visitArr = new int[num + 1];//初始化为0,表示都没有访问过
	memset(primeArr , 0 , sizeof(primeArr) * (num + 1));
	memset(visitArr , 0 , sizeof(visitArr) * (num + 1));
	int k;
	for(int i = 2 ; 
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值