【问题描述】
nodgd 写了一篇文章,自认为这是一篇好文章。nodgd 的文章由n个小写英文字母组成。文章的一个子串指的是文章中的一段连续的字母,子串的长度就是这一段的字母个数。nodgd 在文章中用了排比、对偶、前后照应之类的手法,所以就有很多个子串是相同或者相近的。为了向大家证明这是一篇好文章,nodgd 决定给自己的文章进行评分。nodgd 首先确定了一个整数m,然后统计出文章中有多少个不相同的长度为m的子串,这个数量就是文章的评分。
然而,nodgd 懒得老老实实计算这个评分了,就把任务丢给了你。
【输入格式】
输入文件 B.in。
第一行包含两个整数n,m,表示文章的长度和需要统计的子串长度。第二行包含一个长度为n的只包含小写字母的字符串。
【输出格式】
输出文件 B.out。
输出一行一个整数,表示文章的评分。
【样例输入 1】
5 3
aaaab
【样例输出 1】
2
【样例解释 1】
长度为3的子串有3个,分别是 aaa,aaa,aab,其中不同的只有2个。
【样例输入 2】
9 3
abcabacba
【样例输出 2】
7
【样例解释 2】
共有7个长度为3的子串,每个长度为3的子串都不同。
【数据范围】
对于 30%的数据,1 ≤ m ≤ n ≤ 200;
对于 50%的数据,1 ≤ m ≤ n ≤ 2000;
对于另外 20%的数据,1 ≤ m ≤ 50 ≤ n ≤ 200000;
对于 100%的数据,1 ≤ m ≤ n ≤ 200000。
字符串哈希的入门题,Rabin-Karp算法。
将一段字符串进行加密后映射为一个整数,hash(s)要做到均匀分布,方便计算(显然,除非精心设计,否则就会产生误差)。
hash(w[0 ..m-1])=(w[0]*j^(m-1)+w[1]*j^(m-2)+···+w[m-1]*j^0) mod p
根据题目定进制和模数。此题用双哈希稳过,代码骚短= =。
#include<bits/stdc++.h>
using namespace std;
const int Maxn=200005;
const int e1=31,e2=131,p1=998244353,p2=1e9+7;
long long f1[Maxn]={1},f2[Maxn]={1};
set<pair<long long,long long> >ss;
char s[Maxn];
int main(){
int n,m;scanf("%d%d%s",&n,&m,s+1);
for(int i=1;i<=m;++i)f1[i]=f1[i-1]*e1%p1;
for(int i=1;i<=m;++i)f2[i]=f2[i-1]*e2%p2;
long long st1=0,st2=0;
for(int i=1;i<=m;++i){
st1=(st1*e1%p1+s[i]-'a')%p1;
st2=(st2*e2%p2+s[i]-'a')%p2;
}
ss.insert(make_pair(st1,st2));
for(int i=m+1;i<=n;++i){
st1=((st1-(s[i-m]-'a')*f1[m-1]%p1+p1)*e1+s[i]-'a')%p1;
st2=((st2-(s[i-m]-'a')*f2[m-1]%p2+p2)*e2+s[i]-'a')%p2;
ss.insert(make_pair(st1,st2));
}
printf("%d\n",ss.size());
return 0;
}