Description
小可可是学校图书馆的管理员,现在他接手了一个十分棘手的任务。
由于学校需要一些材料,校长需要在文章中检索一些信息。校长一共给了小可可N篇文章,每篇文章为一个字符串。现在,校长需要他找到这样的单词,它至少在这N篇文章中的M篇文章里出现过,且单词长度为L。可是,工作量十分庞大,但校长又急需小可可完成这项任务。
现在他向你求助,需要你编写程序完成这项艰巨的任务。
Data Constraint
对于20%的数据有1≤N,M≤10;
对于60%的数据有1≤N,M≤100;
对于100%的数据有1≤N,M≤2000,L≤1000。每篇文章长度不大于1000,均有小写字母组成。
Solution
这道题一看就想到用哈希表来判重。我们对于每个输入字符串s,我们记录a[i]表示s的前i位的哈希值。那么当你选择了i-l+1~i的子串时,它的字符串哈希值就为a[i]-a[i-l]*s[l]。先在一个哈希数组中判断一下,假设某个子串在哈希数组中出现了超过1次,就把它加入到总的哈希数组中(为了防止一个子串在字符串中出现多次)。最后查一下就可。
Code
#include<iostream>
#include<cmath>
#include<cstdio>
#include<cstring>
#include<algorithm>
#define ll long long
using namespace std;
const ll maxn=1e7+7,maxn1=1e3+5,mo=1e9+3;
char s[maxn1];
ll h[maxn][2],h1[maxn1],a[maxn1],b[maxn1];
ll n,m,p,i,t,j,k,l,x,y,ans;
void hash1(ll x){
ll t=x%maxn1;
while (h1[t] && h1[t]!=x) t=(t+1)%maxn1;
h1[t]=x;
}
void hash(ll x){
ll t=x%maxn;
while (h[t][0] && h[t][0]!=x) t=(t+1)%maxn;
h[t][0]=x;h[t][1]++;
}
int main(){
// freopen("data.in","r",stdin);
scanf("%lld%lld%lld\n",&n,&m,&p);
b[0]=1;
for (i=1;i<maxn1;i++)
b[i]=b[i-1]*27%mo;
for (i=1;i<=n;i++){
memset(h1,0,sizeof(h1));
scanf("%s\n",s+1);t=strlen(s+1);
for (j=1;j<=t;j++)
a[j]=(a[j-1]*27+s[j]-96)%mo;
for (j=p;j<=t;j++){
x=(a[j]-a[j-p]*b[p]%mo+mo)%mo;
hash1(x);
}
for (j=0;j<maxn1;j++)
if (h1[j]) hash(h1[j]);
}
for (j=0;j<maxn;j++)
if (h[j][1]>=m) ans++;
printf("%lld\n",ans);
}