洛谷-P3370 【模板】字符串哈希

推荐两个关于字符串哈希的博客:

字符串哈希入门

字符串哈希进阶

所谓字符串哈希是指将字符串转化为一个整数,并且保证不同字符串得到的整数不同,这样便可以通过整数来判断两个字符串是否相同等。

本题可以用进制哈希来解决,这应该也是字符串哈希中很常用的一种哈希方法。

进制哈希的核心思想是将字符串转换为一个base进制的整数。

首先确定一个base值,作为基;一个mod值,作为模数。

再设置一个hash_val值,初始为0,它将记录字符串的最终的哈希值。

然后迭代这个字符串,将base乘以hash_val再加上当前字符的整数值,将取余mod后将结果赋给hash_val,继续下一轮迭代。

最终的hash_val即为该字符串的哈希值,存入哈希表中。

举个栗子:

字符串s="abc".

我们确定base = 13331,mod = 1e9 + 7, hash_val = 0.

迭代字符串:

①hash_val = (base * hash_val + int(s[0])) % mod = 97

②hash_val = (base * hash_val + int(s[1])) % mod = 1293205

③hash_val = (base * hash_val + int(s[2])) % mod = 239715835

则239715835为字符串"abc"的哈希值。

不过,哈希的弊端是有可能出现冲突,即不同的字符串的哈希值是相同的。这样会使我们在查询哈希表时会误认为这些字符串是相同的,但其实它们是不同的。

不过可以采取一些方法来减少冲突,例如自然溢出法。

自然溢出法就是在计算哈希值的过程中不对当前的哈希值取模,当它大到超过计算机存储的范围时,让它自然溢出。其实这种方法本质上是将mod取为计算机存储上界,对于C/C++ unsigned int类型就是2^32,unsigned long long类型就是2^64.

另一种方法是将base, mod取为素数,且令base < mod,base与mod都尽可能大,这样可以减小冲突的概率。

图片引自:https://blog.csdn.net/wangqianqianya/article/details/89670919

还有一种常用的方法就是双哈希法,即确定两个base, mod值,为每个字符串分配两个哈希值值。只有两个哈希值都相同,两个字符串才有可能被认为是相同的。通过与上面两种方法进行结合,双哈希法的冲突概率应当是很低的,是比较安全的方法,但是会增加时间与空间开销。

由于自然溢出法比较简单,下面采用自然溢出法解决这道题。

(学习数据结构的时候应该有印象,当出现冲突时要有相应的处理,但冲突处理会增加代码复杂度和时空开销,所以我觉得在ACM中尽可能通过减少冲突概率来避免冲突的发生,避免较为复杂的冲突处理)

#include<algorithm>
#include<iostream>
#include<cstring>
#include<cstdio>
using namespace std;
typedef unsigned long long ull;
const int maxn = 1e4 + 5, maxm = 2e3 + 5;
const ull base = 13331;
char s[maxm];
ull tab[maxn];  //哈希表 

ull hash(char *str){
	ull ans = 0;
	int len = strlen(str);
	for(int i = 0; i < len; ++i){
		ans = base * ans + (ull)str[i];
	}
	return ans;
}

int main(){
	int n;
	scanf("%d", &n);
	for(int i = 0; i < n; ++i){
		scanf("%s", s);
		tab[i] = hash(s);
	}
	
	sort(tab, tab + n);
	int ans = 1;
	for(int i = 1; i < n; ++i){
		if(tab[i] != tab[i - 1])
			++ans;
	}
	printf("%d\n",ans);
	return 0;
}

 

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值