题意:给一个长度为16000000的串,问你长度为n的不同子串的个数,其中不相同的字母有nc个。
思路:字符串hash,首先对每个字符一个数字编号(0 到 nc-1),对于每个字符串映射成一个整数,然后统计不同的数字个数即可。时间复杂度O(N),但是我觉得这样做不合理,当n很大的时候,映射成的数字会超范围。
代码如下:
#include <stdio.h>
#include <string.h>
#include <algorithm>
#include <map>
#include <queue>
#include <vector>
#include <string>
#include <iostream>
#define N 16000005
using namespace std;
char s[N];
int num[200];
bool hash[N];
int main()
{
int n,base;
while(scanf("%d%d",&n,&base) != EOF)
{
memset(num,0,sizeof(num));
memset(hash,0,sizeof(hash));
scanf("%s",s);
int i,tot = 0;
int len = strlen(s);
for(i = 0; i < len; i++)
if(num[ s[i] ] == 0)
num[ s[i] ] = tot++;//给字符编号
int basen = 1,temp = 0;
for(i = 0; i < n; i++)
{
temp = temp + basen*num[ s[i] ];
basen *= base;
}
hash[temp] = 1;
basen/=base;
// cout<<temp<<endl;
int ans = 1;
for(; i < len; i++)
{
temp -= num[ s[i-n] ];
temp /= base;
temp += num[ s[i] ]*basen;
// cout<<temp<<endl;
if(hash[temp] == 0) hash[temp] = 1,ans++;
}
printf("%d\n",ans);
}
return 0;
}