我们定义一个把字符串映射到整数的函数f,这个f称为是hash函数,
我们希望这个函数f可以方便地帮我们判断两个字符串是否相等。
哈希函数最重要的性质可以概括为下面两条:
1、在Hash函数值不一样的时候,两个字符串一定不一样
2、在Hash函数值一样的时候,两个字符串不一定一样(担忧大概率一样,而且我们当然希望他们总是一样的)
Hash函数值一样时原字符串却不一样时的现象我们称为哈希碰撞。采用不同的哈希函数的公式设计可以减少哈希碰撞的概率。
通常我们采用的是多项式的Hash的方法,对于一个长度为l的字符串s来说,我们可以定义多项式Hash函数(只是一个例子):
其中l是字符串的长度,M自己选择的一个比最大字符还大的素数,b可以任意选择。(其他的公式也可以)
例题:洛谷:https://www.luogu.com.cn/problem/P3370
代码以及讲解:
#include<iostream>
#include<cstring>
#include<cmath>
#include<cstdio>
#include<algorithm>
using namespace std;
typedef unsigned long long ll;
ll base=131;
ll M=212370440130137957ll;
int prime=233317;
ll hash1(char s[])
{
ll temp=0;
int len=strlen(s);
for(int i=0;i<len;i++)//将传入的字符串通过此函数转为一个整型的数字
{
temp=(temp*base+(ll)s[i])%M+prime;
}
return temp;
}
ll a[100000],ans=1;
char s[100000];
int main()
{
int n;
cin>>n;
for(int i=0;i<n;i++)
{
scanf("%s",s);
a[i]=hash1(s);//将此字符串通过哈希函数转为整型并存入数组a中
}
sort(a,a+n);
for(int i=0;i<n-1;i++)//比较每个字符串的哈希值
{
if(a[i]!=a[i+1])
ans++;
}
cout<<ans;
return 0;
}