之前说了怎么用FFT匹配字符串,这题也差不多
显然只有ACGT这么几个是在暗示我们把他们分开算
长串t,短串s,长串长lenb,短串长lena
那么我们的任务就变成了计算在从长串t的p位置开始能不能把短串里的所有这类字符匹配上去
我们定义一个函数f[i]
f[i]=1表示长串t中i这个位置左右k内都没有该字符
f[i]=0表示有
函数g[i]表示i这个位置是不是该字符
显然匹配失败当且仅当f[p+i]=1并且g[i]=1,所以匹配成功的条件是
∑
i
=
0
l
e
n
a
f
[
p
+
i
]
g
[
i
]
=
0
\sum_{i=0}^{lena}f[p+i]g[i]=0
i=0∑lenaf[p+i]g[i]=0
那么显然把g反转一下,就又变成了卷积的形式
分别求然后FFT就可以了。
代码如下:
#include<bits/stdc++.h>
#define mod 950009857
#define gg 7
using namespace std;
string m="ATGC";
long long f[600040],g[600040];
int r[600060],ans[600040],nxt[600040],pre[600040];
int lim,k;
char s[200020],t[200020];
long long kasumi(long long a,long long b)
{
long long ans=1;
while(b)
{
if(b&1) ans=ans*a%mod;
a=a*a%mod;
b>>=1;
}
return ans;
}
void NTT(long long *a,int kd)
{
for(int i=0;i<lim;i++)
{
if(i<r[i]) swap(a[i],a[r[i]]);
}
for(int mid=1;mid<lim;mid<<=1)
{
long long wn=kasumi(gg,(mod-1)/(mid<<1));
if(kd) wn=kasumi(wn,mod-2);
for(int i=0;i<lim;i+=(mid<<1))
{
long long w=1;
for(int j=0;j<mid;j++,w=wn*w%mod)
{
long long x=a[i+j];
long long y=a[i+j+mid]*w%mod;
a[i+j]=(x+y)%mod;
a[i+j+mid]=(x-y+mod)%mod;
}
}
}
if(kd)
{
long long inv1=kasumi(lim,mod-2);
for(int i=0;i<lim;i++)
{
a[i]=a[i]*inv1%mod;
}
}
}
int cnt=0,lena,lenb;
int main()
{
scanf("%d%d",&lena,&lenb);
scanf("%d",&k);
scanf("%s",s);
scanf("%s",t);
for(int i=0;i<=lena-lenb;i++) ans[i]=1;
for(lim=1;lim<=lena+lenb;lim<<=1,cnt++);
for(int i=0;i<lim;i++)
{
r[i]=(r[i>>1]>>1)|((i&1)<<(cnt-1));
}
for(int ah=0;ah<4;ah++)
{
memset(f,0,sizeof(f));
memset(g,0,sizeof(g));
char nowc=m[ah];
for(int i=0;i<lenb;i++)
{
g[i]=(t[i]==nowc);
}
reverse(g,g+lim);
int pr=-200000;
for(int i=0;i<lena;i++)
{
if(s[i]==nowc) pr=i;
pre[i]=pr;
}
int nx=1000000;
for(int i=lena-1;i>=0;i--)
{
if(s[i]==nowc) nx=i;
nxt[i]=nx;
}
for(int i=0;i<lena;i++)
{
if(i-pre[i]>k&&nxt[i]-i>k) f[i+1]=1;
else f[i+1]=0;
}
NTT(f,0);NTT(g,0);
for(int i=0;i<lim;i++)
{
f[i]=f[i]*g[i]%mod;
}
NTT(f,1);
for(int i=0;i<=lena-lenb;i++)
{
ans[i]=ans[i]&(!f[i]);
}
}
long long res=0;
for(int i=0;i<=lena-lenb;i++) if(ans[i]) res++;
printf("%lld\n",res);
}