最基本的字符串哈希
对于一个长度为 n n n的字符串 s s s(下标从 0 0 0到 n − 1 n-1 n−1),假定它的每个字符都可以用0~127的ASCII码表示,那么我们可以把它看作一个128进制的数作为哈希值。
记
P
=
128
P=128
P=128,则数值化的
s
s
s为
s
=
∑
i
=
0
n
−
1
s
i
×
P
i
s=\sum_{i=0}^{n-1} s_i\times P^i
s=i=0∑n−1si×Pi
拼接与截取
对于两个字符串
s
1
,
s
2
s_1,s_2
s1,s2,记其长度分别为
L
1
,
L
2
L_1,L_2
L1,L2,那么对于
s
1
,
s
2
s_1,s_2
s1,s2顺次拼接得到的字符串
s
s
s,数值化后满足
s
=
s
1
+
s
2
×
P
L
1
s=s_1+s_2\times P^{L_1}
s=s1+s2×PL1
我们记从字符串
s
s
s中由下标
l
l
l到下标
r
(
0
≤
l
≤
r
<
n
)
r(0\le l \le r <n)
r(0≤l≤r<n)的字符构成的子串为
s
(
l
,
r
)
s(l,r)
s(l,r)且
h
r
=
s
(
0
,
r
)
,
h
−
1
=
0
h_r=s(0,r),h_{-1}=0
hr=s(0,r),h−1=0,那么任意子串
s
(
l
,
r
)
s(l,r)
s(l,r)数值化后应当满足
s
(
l
,
r
)
=
h
(
r
)
−
h
(
l
−
1
)
P
l
s(l,r)=\frac{h(r)-h(l-1)}{P^l}
s(l,r)=Plh(r)−h(l−1)
存储问题
显然,对于稍微长一些的字符串,其数值化之后会非常的大,难以存储,因此我们必须对其取模。取模后容易带来哈希碰撞,当模数和 P P P均取质数时,碰撞概率会显著减小。 P P P常常取131或13331。而模数则根据存储单元大小决定,例如用4字节有符号整数存储时,可以采用 1 0 9 + 7 10^9+7 109+7做模数。
需要注意,对于相当长的字符串(譬如其长度超过 1 0 5 10^5 105),那么采用 1 0 9 + 7 10^9+7 109+7做模数时,出现碰撞的概率相当大,因此这时可以使用8字节有符号整数存储,并采用 1 0 18 + 3 10^{18}+3 1018+3作为模数。
另一种解决碰撞的方法是:对同一字符串采用两个不同的 P P P或者模数进行哈希,两个哈希值均相同时才认为是同一字符串。
例题
原题链接:CF855D
题意: 从一个字符串中删去两个连续字符,问能够产生多少种不同的字符串?
解答: 将所有可能的字符串哈希后用set
去重后即可。
代码:
//该代码采用了1e18+3作为模数
#include<bits/stdc++.h>
using namespace std;
typedef long long ll;
//带取模运算long long的模板
template<ll MOD>
class mint{
public:
ll x;
mint(){x=0ll;}
mint(ll x){this->x=x;}
mint operator+(const mint &i) const{mint ret(x+i.x);if(ret.x>MOD)ret.x-=MOD;return ret;}
mint operator-(const mint &i) const{mint ret(x-i.x);if(ret.x<0)ret.x+=MOD;return ret;}
mint operator<<(int i)const {ll t=x;while(i--){t<<=1;if(t>MOD)t-=MOD;}return mint(t);}
mint operator*(const mint &i) const{
//由于模数很大,直接进行两个long long的乘法会溢出,因此拆分成两个int进行计算
ll k=1ll<<31,a=x&(k-1),b=x>>31,c=i.x&(k-1),d=i.x>>31;
if(b==0){
if(d==0) return mint(a*c%MOD);
return mint(a*c%MOD)+(mint(a*d%MOD)<<31);
}else{
if(d==0) return mint(a*c%MOD)+(mint(b*c%MOD)<<31);
return mint(a*c%MOD)+(mint(a*d%MOD)<<31)+(mint(b*c%MOD)<<31)+(mint(b*d%MOD)<<62);
}
}
mint pow(long long b) const{
mint ret(1ll),a(x);
while(b){
if(b&1) ret=ret*a;
a=a*a;b>>=1;
}
return ret;
}
mint operator/(const mint &i) const{mint ret(x);return ret*i.pow(MOD-2);}//乘法逆元
const bool operator>(const mint &m) const{return x>m.x;};
const bool operator<(const mint &m) const{return x<m.x;};
const bool operator==(const mint &m) const{return x==m.x;};
};
typedef mint<1000000000000000003ll> Mint;
const int MAXN=2e5+10;
const Mint HMOD(1000003);
const Mint DIV=Mint(1)/(HMOD*HMOD);
Mint mhash[MAXN];
set<Mint> st;
Mint gethash(string &s,int e,int n){
return mhash[e]+(mhash[n]-mhash[e+2])*DIV;
//由于每次除的数都一样,且计算乘法逆元的开销较大,因此预先记录这个除数会节约很多时间
}
int main(){
ios::sync_with_stdio(false);
int T,n;string s;
cin>>T;
while(T--){
cin>>n>>s;
st.clear();
Mint P(1);
for(int i=0;i<n;++i) {
mhash[i+1]=mhash[i]+Mint(s[i]-'a'+1)*P;
P=P*HMOD;
}
for(int i=0;i<n-1;++i){
Mint t=gethash(s,i,n);
st.insert(t);
}
cout<<st.size()<<endl;
}
return 0;
}