题目描述
给定一个字符串,其中含有不同的字母数量为m,现在求这个字符串中有多少个长度为n且长的互不相同的字符子串
举个例子, n=3, m=4 ,字符串 “daababac”. 长度为3的不同的子串分别是: “daa”; “aab”; “aba”; “bab”; “bac”. 因此, 答案是5.
Input
第一行是两个整数n,m,,一个空格隔开。 接下来一行是我们要解决的字符串.( 你可以认为字符串的长度不会超过一千六百万。)Orz我读错题了,并不是字符串长度不超过1600万,是合理hash之后的hash的值不超过1600万。Orz原谅我
Output
程序应该输出一个整数,对应于给定文本中所找到的大小为n的不同子字符串的数量。
输入数据
3 4
daababac
输出数据
5
Hint
输入数据量庞大,推荐使用scanf
思路:开始就直接用单哈希,然后选择一个大的素数(19260817)来取余,交一发WA,我想肯定是素数选择错了,有冲突,但是又没有解决的办法,最后百度题解~~~,发现告诉你单词的种类还是有用的,可以以此为倍数,也就是构造m进制,这样就不可能有冲突了,以为在进制中,比如2进制的4,永远都是0100,所以哈希也就不可能有冲突,实在强大。
代码:
#include<stdio.h>
#include<iostream>
#include<string.h>
#define LL long long
#define Max 20000005
const LL mod=(LL)19260817;
const LL base=131;
const LL LL_MAX=9223372036854775807;
int vis[Max],num[257];
char s[Max];
using namespace std;
int main()
{
LL n,m;
scanf("%lld%lld%s",&n,&m,s+1);
int len=strlen(s+1),cnt=0;
for(int i=1;i<=len;i++){
if(!num[s[i]])
num[s[i]]=cnt++;
}
LL p=1,Hash=0;
for(int i=0;i<n;i++)
p*=m;
for(int i=1;i<=n;i++)
Hash=Hash*m+num[s[i]];
vis[Hash]=1;
int ans=1;
for(int i=n+1;i<=len;i++){
Hash=Hash*m+num[s[i]];//这个是学的bzoj3097
Hash-=num[s[i-n]]*p;
if(!vis[Hash]){
ans++;
vis[Hash]=1;
}
}
printf("%d\n",ans);
return 0;
}