[BZOJ]4503 两个串：我的第一次FFT尝试

最新推荐文章于 2018-12-26 15:36:00 发布

GGN_2015

最新推荐文章于 2018-12-26 15:36:00 发布

阅读量686

点赞数

分类专栏：算法导论文章标签： fft

本文链接：https://blog.csdn.net/GGN_2015/article/details/78574419

版权

算法导论专栏收录该内容

76 篇文章 0 订阅

订阅专栏

序言

接触FFT半年了，水平一直停留在只会写个高精度乘法那个层次，所以就试着做了一道FFT的题。

要是我没感觉错的话，这是一道权限题，然而我并没有权限号，我只是写了个暴力对拍了一下…

题目

[BZOJ]4503 两个串

Time Limit: 20 Sec；Memory Limit: 256 MB；Submit: 398 Solved: 190；

Description

兔子们在玩两个串的游戏。给定两个字符串S和T，兔子们想知道T在S中出现了几次，
分别在哪些位置出现。注意T中可能有“?”字符，这个字符可以匹配任何字符。

Input

两行两个字符串，分别代表S和T

Output

第一行一个正整数k，表示T在S中出现了几次
接下来k行正整数，分别代表T每次在S中出现的开始位置。按照从小到大的顺序输出，S下标从0开始。

Sample Input

bbabaababaaaaabaaaaaaaabaaabbbabaaabbabaabbbbabbbbbbabbaabbbababababbbbbbaaabaaabbbbbaabbbaabbbbabab

a?aba?abba

Sample Output

0

HINT

S 长度不超过 10^5， T 长度不会超过 S。 S 中只包含小写字母， T中只包含小写字母和“?”

Source

数学 FFT 字符串脑洞题

思路

首先，因为有通配符，所以不能KMP。而又因为数据范围1e5，所以时间复杂度被锁定在O(nlogn)左右，暴力匹配显然也是不可能的，考虑通过FFT强行优化。

（下文中，l1表示S串长度，l2表示T串长度。S表示文本串，T表示模式串。）

然后，在S中的某一个位置x，T得到成功匹配的充要条件是什么。先考虑没有通配符的情况：
(c1是S中的某个字符，c2是T中的某个字符。)

c 1 = c 2 \Leftrightarrow (c 1 - c 2) 2 = 0

$c_1=c_2 \Leftrightarrow (c_1-c_2)^2 =0$

S x . . . x + l 2 - 1 = T \Leftrightarrow \sum i = 0 l 2 - 1 (S i + x - T i) 2 = 0

$S_{x...x+l_2-1}=T \Leftrightarrow \sum_{i=0}^{l_2-1}(S_{i+x}-T_{i})^2=0$

如果有通配符，只要是通配符，那么就一定可以匹配，不妨先把通配符都改成0。

c 1 = c 2 \Leftrightarrow c 2 (c 1 - c 2) 2 = 0

$c_1=c_2 \Leftrightarrow c_2(c_1-c_2)^2 =0$

S x . . . x + l 2 - 1 = T \Leftrightarrow \sum i = 0 l 2 - 1 T i (S i + x - T i) 2 = 0

$S_{x...x+l_2-1}=T \Leftrightarrow \sum_{i=0}^{l_2-1}T_i(S_{i+x}-T_{i})^2=0$

并没发现什么问题，平方展开试一试。

S x . . . x + l 2 - 1 = T \Leftrightarrow \sum i = 0 l 2 - 1 T i (S 2 i + x + T 2 i - 2 S i + x T i) = 0

$S_{x...x+l_2-1}=T \Leftrightarrow \sum_{i=0}^{l_2-1}T_i(S_{i+x}^2+T_i^2-2S_{i+x}T_i)=0$

S x . . . x + l 2 - 1 = T \Leftrightarrow \sum i = 0 l 2 - 1 T i S 2 i + x + T 3 i - 2 S i + x T 2 i = 0

$S_{x...x+l_2-1}=T \Leftrightarrow \sum_{i=0}^{l_2-1}T_iS_{i+x}^2+T_i^3-2S_{i+x}T_i^2=0$

请大家强行脑补，回忆一下卷积的定义是什么？

C = A * B \Leftrightarrow C k = \sum i + j = k A i \times B j

$C=A*B \Leftrightarrow C_k=\sum_{i+j=k}A_i \times B_j$

在计算卷记得某一个位置k时，被使用到的i和j的和始终是一个定值。但本题中，两个相乘的数的下标始终是，i和i+x，他们的差是一个定值，但和不是。怎么办呢？为什么不把T字符串翻转一下！

令 T' i = T l 2 - i - 1

$令T_i'=T_{l_2-i-1}$

这样，T’就是T翻转之后的结果。我们可以试着用T’去替代原式中的T,并且令其为f(x)。

f (x) = \sum i = 0 l 2 - 1 T' l 2 - i - 1 S 2 i + x + T' 3 l 2 - i - 1 - 2 S i + x T' 2 l 2 - i - 1 = 0

$f(x)=\sum_{i=0}^{l_2-1}T_{l_2-i-1}'S_{i+x}^2+T_{l_2-i-1}'^3-2S_{i+x}T_{l_2-i-1}'^2=0$

f (x) = (\sum i = 0 l 2 - 1 T' l 2 - i - 1 S 2 i + x) + (\sum i = 0 l 2 - 1 T' 3 l 2 - i - 1) - 2 (\sum i = 0 l 2 - 1 S i + x T' 2 l 2 - i - 1) = 0

$f(x)=(\sum_{i=0}^{l_2-1}T_{l_2-i-1}'S_{i+x}^2)+(\sum_{i=0}^{l_2-1}T_{l_2-i-1}'^3)-2(\sum_{i=0}^{l_2-1}S_{i+x}T_{l_2-i-1}'^2)=0$

这次是不是非常和谐了，当x一定时，被相乘的两个数的下标分别为l2-i-1和i+x，它们的和始终等于l2+x-1，是一个定值，满足卷积的性质。

把上式看成三个部分：

中间的那部分：

\sum i = 0 l 2 - 1 T' 3 l 2 - i - 1

$\sum_{i=0}^{l_2-1}T_{l_2-i-1}'^3$

是一个定值，可以直接求出。

左边的那部分：

\sum i = 0 l 2 - 1 T' l 2 - i - 1 S 2 i + x

$\sum_{i=0}^{l_2-1}T_{l_2-i-1}'S_{i+x}^2$

构造一个数组S’令它为S的平方，则有：

S' i = S 2 i

$S'_i=S_i^2$

令S’和T的卷积为A，则有：

A k = \sum i + j = k S' j T' i

$A_k=\sum_{i+j=k}S'_jT_i'$

根据定义有：

A l 2 + x - 1 = \sum i = 0 l 2 + x - 1 S' l 2 + x - 1 - i T' i = (\sum i = 0 l 2 - 1 S' l 2 + x - 1 - i T' i) + (\sum i = l 2 l 2 + x - 1 S' l 2 + x - 1 - i T' i)

$A_{l_2+x-1}=\sum_{i=0}^{l_2+x-1}S_{l_2+x-1-i}'T_{i}'=(\sum_{i=0}^{l_2-1}S_{l_2+x-1-i}'T_{i}')+(\sum_{i=l_2}^{l_2+x-1}S_{l_2+x-1-i}'T_{i}')$

因为T’的长度只有l2，我们默认T’在l2及以后的位置的值都是零（也就是假定都是通配符，可以和任何字符匹配）。那么这个式子的后半部分一定等于零，即：

A l 2 + x - 1 = \sum i = 0 l 2 + x - 1 S' l 2 + x - 1 - i T' i = (\sum i = 0 l 2 - 1 S' l 2 + x - 1 - i T' i) + (\sum i = l 2 l 2 + x - 1 S' l 2 + x - 1 - i T' i) = \sum i = 0 l 2 - 1 S' l 2 + x - 1 - i T' i

$A_{l_2+x-1}=\sum_{i=0}^{l_2+x-1}S_{l_2+x-1-i}'T_{i}'=(\sum_{i=0}^{l_2-1}S_{l_2+x-1-i}'T_{i}')+(\sum_{i=l_2}^{l_2+x-1}S_{l_2+x-1-i}'T_{i}')=\sum_{i=0}^{l_2-1}S_{l_2+x-1-i}'T_{i}'$

尝试用l2-i-1替换i：i=0时，l2-i-1=l2-1：i=l2-1时，l2-i-1=0。

A l 2 + x - 1 = \sum i = 0 l 2 - 1 S' l 2 + x - 1 - i T' i = \sum l 2 - i - 1 = 0 l 2 - i - 1 = l 2 - 1 S' l 2 + x - 1 - (l 2 - i - 1) T' (l 2 - i - 1) = \sum l 2 - i - 1 = 0 l 2 - i - 1 = l 2 - 1 S' l 2 + x - 1 - (l 2 - i - 1) T' l 2 - i - 1

$A_{l_2+x-1}=\sum_{i=0}^{l_2-1}S_{l_2+x-1-i}'T_{i}'=\sum_{l_2-i-1=0}^{l_2-i-1=l_2-1}S_{l_2+x-1-(l_2-i-1)}'T_{(l_2-i-1)}'=\sum_{l_2-i-1=0}^{l_2-i-1=l_2-1}S_{l_2+x-1-(l_2-i-1)}'T_{l_2-i-1}'$

= \sum i = l 2 - 1 i = 0 T' l 2 - i - 1 S' i + x = \sum i = 0 l 2 - 1 T' l 2 - i - 1 S 2 i + x

$=\sum_{i=l_2-1}^{i=0}T_{l_2-i-1}'S_{i+x}'=\sum_{i=0}^{l_2-1}T_{l_2-i-1}'S_{i+x}^2$

惊人的事情出现了：T’和S’的卷积A中的第l2-x+1位的值，恰好与f(x)中的左边部分相等。

同理，你也可以令T”表示T’的平方，即：

T'' i = T' 2 i

$T_i''=T_i'^2$

令T”与S的卷积为B，用同样的方法也可以证得B中的第l2-i+1位的值，恰好与f(x)中的右边部分相等。

这样的话，你只需要先预处理出中间的部分记为W，然后求一下S’和T’的卷积A，再求一下S和T”的卷积B就可以得出所谓f(x)。

f (x) = A l 2 + x - 1 - 2 \times B l 2 + x - 1 + W

$f(x)=A_{l_2+x-1}-2 \times B_{l_2+x-1}+W$

用FFT求两次卷积，时间复杂度为O(nlogn)。其他操作的时间复杂度都为O(n)，总时间复杂度为O(nlogn)。

代码

我的代码不能保证正确性，但是通过了我自己的对拍。

#include<cstdio>
#include<cstdlib>
#include<algorithm>
#include<cmath>
#include<queue>
#include<complex>
using namespace std;

typedef complex<double> cd;
const int maxl=262145;
const double PI=acos(-1.0);

int rev[maxl];

void fft(cd* a,int n,int dft){
    for(int i=0;i<n;i++){
        if(i<rev[i])
            swap(a[i],a[rev[i]]);
    }
    for(int step=1;step<n;step<<=1){
        cd wn=exp(cd(0,dft*PI/step));
        for(int j=0;j<n;j+=step<<1){
            cd wnk(1,0);
            for(int k=j;k<j+step;k++){
                cd x=a[k];
                cd y=wnk*a[k+step];
                a[k]=x+y;
                a[k+step]=x-y;
                wnk*=wn;
            }
        }
    }
    if(dft==-1){
        for(int i=0;i<n;i++)
            a[i]/=n;
    }
}

void get_rev(int bit){
    for(int i=0;i<(1<<bit);i++){
        rev[i]=(rev[i>>1]>>1)|((i&1)<<(bit-1));
    }
}

char S[maxl],T[maxl];//empty

inline double sqr(double x){return x*x;}
inline double cub(double x){return x*x*x;}

double cubeB=0;
cd a[maxl],b[maxl];
cd sqrA[maxl],sqrB[maxl];
cd bSqrA[maxl],aSqrB[maxl];

int tran_str(char* s){
    for(int i=0;;i++){
        if(s[i]==0)
            return i;//return len
        s[i]=(s[i]=='?')?0:(s[i]-'a'+1);
    }
}

int l1,l2;
bool check(int x){
    return int((cubeB+bSqrA[l2+x-1]-2.0*aSqrB[l2+x-1]).real()+0.5)==0;
}

int main(){
    scanf("%s%s",S,T);
    l1=tran_str(S);l2=tran_str(T);
    reverse(T,T+l2);
    int bit=1,s=2;
    for(bit=1;(1<<bit)<l1+l2-1;bit++)s<<=1;
    get_rev(bit);
    for(int i=0;i<l1;i++){
        a[i]=S[i];sqrA[i]=sqr(S[i]);
    }
    for(int i=0;i<l2;i++){
        b[i]=T[i];sqrB[i]=sqr(T[i]);
        cubeB+=cub(T[i]);
    }
    fft(sqrA,s,1);fft(b,s,1);
    for(int i=0;i<s;i++)bSqrA[i]=sqrA[i]*b[i];
    fft(bSqrA,s,-1);//b*(a^2)
    fft(a,s,1);fft(sqrB,s,1);
    for(int i=0;i<s;i++)aSqrB[i]=a[i]*sqrB[i];
    fft(aSqrB,s,-1);//a*(b^2)
    int cnt=0;queue<int>ans;
    for(int x=0;x<=l1-l2;x++){
        if(check(x)){
            cnt++;
            ans.push(x);
        }
    }
    printf("%d\n",cnt);
    while(!ans.empty()){
        printf("%d\n",ans.front());
        ans.pop();
    }
    return 0;
}

我的数据生成器的代码：

#include<cstdio>
#include<cstdlib>
#include<ctime>
#include<algorithm>
using namespace std;

const int maxl=10001;
char S[maxl],T[maxl];

int rand(int L,int R){
    return rand()%(R-L+1)+L;
}

int main(){
    srand(time(NULL));
    int l1=rand(100,4000),l2=rand(2,10);
    for(int i=0;i<l1;i++)S[i]=rand('a','b');
    //因为数据是随机的，如果字母的范围太大可能最后成功匹配的次数很少
    //我认为只保留两种字母并不影响程序正确性的测试
    int st=rand(0,l1-l2-1);
    for(int i=0;i<l2;i++){
        T[i]=S[st+i];
        if(!rand(0,4))T[i]='?';
    }
    printf("%s\n%s\n",S,T);
    return 0;
}

我的暴力的代码：

#include<cstdio>
#include<cstdlib>
#include<queue>
#include<algorithm>
using namespace std;

const int maxl=10001;
char S[maxl],T[maxl];

bool check(int x){
    for(int i=0;T[i];i++){
        if(!(T[i]=='?' || S[x+i]==T[i])){
            return false;
        }
    }
    return true;
}

int main(){
    scanf("%s%s",S,T);
    int cnt=0;queue<int>ans;
    for(int i=0;S[i];i++){
        if(check(i)){
            cnt++;
            ans.push(i);
        }
    }
    printf("%d\n",cnt);
    while(!ans.empty()){
        printf("%d\n",ans.front());
        ans.pop();
    }
    return 0;
}