#include <iostream>
#include <stdio.h>
#include <string>
#include <vector>
using namespace std;
/*
问题:统计书中的单词及出现次数,实现一个数据结构进行存储
分析:典型的信息检索中的倒排索引问题。可以采用链表数组实现: 哈希 + 拉链法
一种做法是:根据给定的单词个数n,选取最接近n的质数k,然后对字符串进行散列,
h = 31 * h + charValue;
求得字符串的哈希值后,用h % k 得到散列后的哈希值
输入:
10(单词个数)
zhu wen ping ma chao ma yan ma xi ping
输出:(单词以及单词出现次数)
zhu:1, wen:1, ping:2, ma:3, chao:1, yan:1, xi:1
关键:
1 哈希表的实现:根据给定的单词个数n,选取最接近n的质数k,然后对字符串进行散列,
h = 31 * h + charValue;
求得字符串的哈希值后,用h % k 得到散列后的哈希值
2
接下来是要建立散列表,散列表的长度,散列中的乘数为31
散列值计算公式:设一个字符串val共有n个字符,则计算的哈希值为
h = 31 ^ (n-1) * val[0] + 31 ^ (n-2) * val[1] + 31 ^ (n-3) * val[2] + ...+ val[n-1]
选用31作为乘数的原因是:
1】对于任意数i, 31 * i = (i << 5) - i,可以用移位和减法代替乘法,可以优化
2】31是质数,只能被1和自身整除,既要保证31乘以字符串不能溢出,又要保证哈希地址较大,来减少冲突,
综合来说:31是个不错的乘数
3 素数筛选法
int* primeArr = new int[num + 1];//用于判定是否为素数的数组,初始化为0,表示都是质数
// sizeof(指针)都是4,strlen只是用来计算字符串长度,整形指针不行
int* visitArr = new int[num + 1];//初始化为0,表示都没有访问过
memset(primeArr , 0 , sizeof(primeArr) * (num + 1));
memset(visitArr , 0 , sizeof(visitArr) * (num + 1));
int k;
for(int i = 2 ;
编程珠玑: 15.1实现一个哈希表统计字符串出现次数 -------解题总结
最新推荐文章于 2024-07-24 14:48:03 发布
该博客介绍了如何使用哈希表统计字符串中单词的出现次数,通过哈希+拉链法解决信息检索中的倒排索引问题。选取接近单词个数的质数作为哈希表长度,利用31作为乘数进行哈希计算,并详细解释了选择31的原因。此外,还提供了素数筛选法找到最接近给定数的质数。
摘要由CSDN通过智能技术生成