符串哈希就是将一个字符串映射为P进制的整数.
- 将一个字符串映射成一个P进制整数
对于一个长度为n的字符串s,这样定义一个Hash函数:h(s)=∑ni=1s[i]×pn−i(modM)
例如,字符串,abc,其哈希值为ap2+bp1+c - 如果两个字符串不一样,哈希值却一样,这种现象称为哈希碰撞
- 解决哈希碰撞的方法:
巧妙地设置P和M的值,保证P与M互质.
P通常取质数131或者13331
M通常取大整数264264,把哈希函数值的数据类型定义为UUL(unsigned long long
),超过则自动移除,等价于取模
解题:
求一共字符串的哈希相当于求前缀和,而求一共字符串的子串就相当于求这个字符串的区间和
公式:p[i] = p[i - 1] * P,h[i] = h[i - 1] * P + s[i];
求子串的哈希函数就是求这个字符串的区间和:h[l,r] = h[r] - h[l - 1] * p^r - l + 1;
计算前缀和的时间复杂度为O(n), 查询子串哈希值的时间复杂度为O(1)
如图:
这一题可以看成求不重复字符串的个数,那么就可以用set<string>和unordered_set<string>来解决
前者是运用红黑树,后者是运用哈希函数来实现的
set<string>:
#include<bits/stdc++.h>
using namespace std;
set<string> s;
int main()
{
int n;
cin >> n;
for(int i = 1;i<=n;i++)
{
string str;
cin >> str;
s.insert(str);
}
cout <<s.size();
return 0;
}
unoedered_set<string>:
#include<bits/stdc++.h>
using namespace std;
unordered_set<string> s;
int main()
{
int n;
cin >> n;
for(int i = 1;i<=n;i++)
{
string str;
cin >> str;
s.insert(str);
}
cout <<s.size();
return 0;
}
这两者的区别在于时间复杂度的不同,前者的查询是O(log n)的,后者查询是O(1)的,在最坏的情况下会达到O(n)
用哈希函数来实现:
将每一个字符串转化为一个P进制的整数,存储在h[i]中,因为在存储哈希函数的时候,求的有前缀和,所以直接将字符串的最后一个字符的位置(假设是len)存储到h中相应的位(h[len])
然后将这个位置上的数值,存储到unordered_set中去,会后输出容器中的元素个数;
#include<bits/stdc++.h>
using namespace std;
typedef unsigned long long ULL;
const int N = 1505,P = 131;
ULL h[N];
char s[N];
ULL calc(char *s,int len)
{
for(int i = 1;i<=len;i++)
{
h[i] = h[i - 1] * P + s[i];
}
return h[len];
}
int main()
{
unordered_set<ULL> set;
int n;
cin >> n;
while(n --)
{
cin >>s;
set.insert(calc(s ,strlen(s)));
}
cout <<set.size();
return 0;
}
一般朴素的哈希写法:
typedef unsigned long long ULL;
const int p= 131;
//p[il=P^i,h[il=s[1~i]的hash值ULL P[N],h[N];
//预处理 hash函数的前缀和
void init()
{
p[0]=1,h[e]=0;for(int i=1;i<= n; i ++)
{
p[i]= p[i-1]*P;h[i]= h[i-1]*P+s[i];
}
}
//计算s[1~r1]的 hash值
ULL get(int l,int r)
{
return h[r]-h[l-1]*p[r-1+1];
}
//判断两子串是否相同
bool substr(int l1,int rl,int l2,int r2)
{
return get(l1,r1)==get(12,r2);
}
END
若有不足,请指正;