二维字符串匹配
把二维模板串的每行作为一个一维模板串,建立AC自动机,用原字符串的每行分别匹配,找到每一个匹配点(通过find函数即可做到),然后,在匹配的过程中,进行一些记录就可以求出结果!如何记录呢?
记cnt[r][c]:以(r,c)为左上角的矩形与二维模板串P相同
cnt[r-i][c]++:模板串的第i行字符串的匹配点在(r,c)处。
#include<cstring>
#include<queue>
#include<cstdio>
#include<map>
using namespace std;
const int SIGMA_SIZE=26;
const int MAXNODE=10000+10;
void process_match(int pos,int v);//AC自动机每找到一个匹配会调用一次,结束位置为pos,val为v
struct AC{
int ch[MAXNODE][SIGMA_SIZE];
int f[MAXNODE];//fail函数
int val[MAXNODE];//每个字符串结尾节点有一个非零节点的val---代表模板串的输入序编号!
int last[MAXNODE];//输出链表的下一个节点的val值(输入序编号)
int sz;
void init(){
sz=1;
memset(ch[0],0,sizeof(ch[0]));
}
//字符c的编号
int idx(char c){ return c-'a'; }
//插入字符串 v必须非0
void insert(char *s,int v){
int u=0,n=strlen(s);
for(int i=0;i<n;i++){
int c=idx(s[i]);
if(!ch[u][c]){
memset(ch[sz],0,sizeof(ch[sz]));
val[sz]=0;
ch[u][c]=sz++;
}
u=ch[u][c];
}
val[u]=v;
}
//递归打印以j为结尾的所有字符串
void report(int pos,int j){
if(j){
process_match(pos,val[j]);
report(pos,last[j]);
}
}
//在T中找模板
//可以找到文本串的匹配起始点、模板串在Trie中的节点编号=>通过val可以索引模板串按添加序得到的编号
int find(char *T){
int n=strlen(T);
int j=0;//当前节点编号,初始为根节点
for(int i=0;i<n;i++){//文本串当前指针
int c=idx(T[i]);
while(j&&!ch[j][c]) j=f[j];//顺着失配边走,直到可以匹配
j=ch[j][c];
if(val[j]) report(i,j);
else if(last[j]) report(i,last[j]);
}
}
//计算fail函数
void getfail(){
queue<int> q;
f[0]=0;
//初始化队列
for(int c=0;c<SIGMA_SIZE;c++){
int u=ch[0][c];
if(u) { f[u]=0;q.push(u);last[u]=0; }
}
//按BFS顺序计算fail
while(!q.empty()){
int r=q.front();q.pop();
for(int c=0;c<SIGMA_SIZE;c++){
int u=ch[r][c];
if(!u) continue;
q.push(u);
int v=f[r];
while(v&&!ch[v][c]) v=f[v];
f[u]=ch[v][c];
last[u]=val[f[u]]?f[u]:last[f[u]];
}
}
}
};
AC ac;
const int maxn=1000+10;
const int maxm=1000+10;
const int maxx=100+10;
const int maxy=100+10;
char text[maxn][maxm],P[maxx][maxy];
int repr[maxx];//repr[i]为模板第i行的代表元
int next[maxx];//next[i]为模板中与第i行相等的下一个编号
int len[maxx];//模板各行长度
int tr;//当前文本行编号
int cnt[maxn][maxm];
void process_match(int pos,int v){
int pr=repr[v-1];//匹配得到模板行编号
int c=pos-len[pr]+1;
while(pr>=0){
if(tr>=pr)//P的行pr出现在T的tr行,起始编号为c
cnt[tr-pr][c]++;
pr=next[pr];
}
}
int main(){
//freopen("a.txt","r",stdin);
int T,n,m,x,y;
scanf("%d",&T);
while(T--){
scanf("%d%d",&n,&m);
for(int i=0;i<n;i++) scanf("%s",text[i]);
scanf("%d%d",&x,&y);
ac.init();
for(int i=0;i<x;i++){
scanf("%s",P[i]);
//用next数组连接相同字符串!
len[i]=strlen(P[i]);
repr[i]=i;
next[i]=-1;
for(int j=0;j<i;j++)
if(strcmp(P[i],P[j])==0){
repr[i]=j;
next[i]=next[j];
next[j]=i;
break;
}
if(repr[i]==i) ac.insert(P[i],i+1);
}
ac.getfail();
memset(cnt,0,sizeof(cnt));
for(tr=0;tr<n;tr++) ac.find(text[tr]);
int ans=0;
for(int i=0;i<n-x+1;i++)
for(int j=0;j<m-y+1;j++)
if(cnt[i][j]==x) ans++;
printf("%d\n",ans);
}
return 0;
}