基本字符串哈希及一些问题

最基本的字符串哈希

对于一个长度为 n n n的字符串 s s s(下标从 0 0 0 n − 1 n-1 n1),假定它的每个字符都可以用0~127的ASCII码表示,那么我们可以把它看作一个128进制的数作为哈希值。

P = 128 P=128 P=128,则数值化的 s s s
s = ∑ i = 0 n − 1 s i × P i s=\sum_{i=0}^{n-1} s_i\times P^i s=i=0n1si×Pi

拼接与截取

对于两个字符串 s 1 , s 2 s_1,s_2 s1,s2,记其长度分别为 L 1 , L 2 L_1,L_2 L1,L2,那么对于 s 1 , s 2 s_1,s_2 s1,s2顺次拼接得到的字符串 s s s,数值化后满足
s = s 1 + s 2 × P L 1 s=s_1+s_2\times P^{L_1} s=s1+s2×PL1

我们记从字符串 s s s中由下标 l l l到下标 r ( 0 ≤ l ≤ r < n ) r(0\le l \le r <n) r(0lr<n)的字符构成的子串为 s ( l , r ) s(l,r) s(l,r) h r = s ( 0 , r ) , h − 1 = 0 h_r=s(0,r),h_{-1}=0 hr=s(0,r),h1=0,那么任意子串 s ( l , r ) s(l,r) s(l,r)数值化后应当满足
s ( l , r ) = h ( r ) − h ( l − 1 ) P l s(l,r)=\frac{h(r)-h(l-1)}{P^l} s(l,r)=Plh(r)h(l1)

存储问题

显然,对于稍微长一些的字符串,其数值化之后会非常的大,难以存储,因此我们必须对其取模。取模后容易带来哈希碰撞,当模数和 P P P均取质数时,碰撞概率会显著减小。 P P P常常取131或13331。而模数则根据存储单元大小决定,例如用4字节有符号整数存储时,可以采用 1 0 9 + 7 10^9+7 109+7做模数。

需要注意,对于相当长的字符串(譬如其长度超过 1 0 5 10^5 105),那么采用 1 0 9 + 7 10^9+7 109+7做模数时,出现碰撞的概率相当大,因此这时可以使用8字节有符号整数存储,并采用 1 0 18 + 3 10^{18}+3 1018+3作为模数。

另一种解决碰撞的方法是:对同一字符串采用两个不同的 P P P或者模数进行哈希,两个哈希值均相同时才认为是同一字符串。

例题

原题链接:CF855D

题意: 从一个字符串中删去两个连续字符,问能够产生多少种不同的字符串?

解答: 将所有可能的字符串哈希后用set去重后即可。

代码:

//该代码采用了1e18+3作为模数
#include<bits/stdc++.h> 
using namespace std;

typedef long long ll;

//带取模运算long long的模板
template<ll MOD>
class mint{
public:
	ll x;
	mint(){x=0ll;}
	mint(ll x){this->x=x;}
	mint operator+(const mint &i) const{mint ret(x+i.x);if(ret.x>MOD)ret.x-=MOD;return ret;}
	mint operator-(const mint &i) const{mint ret(x-i.x);if(ret.x<0)ret.x+=MOD;return ret;}
	mint operator<<(int i)const {ll t=x;while(i--){t<<=1;if(t>MOD)t-=MOD;}return mint(t);}
	mint operator*(const mint &i) const{
		//由于模数很大,直接进行两个long long的乘法会溢出,因此拆分成两个int进行计算
		ll k=1ll<<31,a=x&(k-1),b=x>>31,c=i.x&(k-1),d=i.x>>31;
		if(b==0){
			if(d==0) return mint(a*c%MOD);
			return mint(a*c%MOD)+(mint(a*d%MOD)<<31);
		}else{
			if(d==0) return mint(a*c%MOD)+(mint(b*c%MOD)<<31);
			return mint(a*c%MOD)+(mint(a*d%MOD)<<31)+(mint(b*c%MOD)<<31)+(mint(b*d%MOD)<<62);
		}
	}
	mint pow(long long b) const{
	    mint ret(1ll),a(x);
	    while(b){
	        if(b&1) ret=ret*a;
	        a=a*a;b>>=1;
	    }
	    return ret;
	}
	mint operator/(const mint &i) const{mint ret(x);return ret*i.pow(MOD-2);}//乘法逆元
	const bool operator>(const mint &m) const{return x>m.x;};
	const bool operator<(const mint &m) const{return x<m.x;};
	const bool operator==(const mint &m) const{return x==m.x;};
};

typedef mint<1000000000000000003ll> Mint;

const int MAXN=2e5+10;
const Mint HMOD(1000003);
const Mint DIV=Mint(1)/(HMOD*HMOD);
Mint mhash[MAXN];
set<Mint> st;

Mint gethash(string &s,int e,int n){
	return mhash[e]+(mhash[n]-mhash[e+2])*DIV;
	//由于每次除的数都一样,且计算乘法逆元的开销较大,因此预先记录这个除数会节约很多时间
}

int main(){
	ios::sync_with_stdio(false);
	int T,n;string s;
	cin>>T;
	while(T--){
		cin>>n>>s;
		st.clear(); 
		Mint P(1);
		for(int i=0;i<n;++i) {
			mhash[i+1]=mhash[i]+Mint(s[i]-'a'+1)*P;
			P=P*HMOD;
		}
		for(int i=0;i<n-1;++i){
			Mint t=gethash(s,i,n);
			st.insert(t);
		}
		cout<<st.size()<<endl;
	}
	return 0; 
}
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值