洛谷LCS - Longest Common Substring
题目大意
输入两个字符串,输出它们的最长公共子串的长度,若不存在公共子串则输出 0 0 0。
字符串的长度不超过 250000 250000 250000。
题解
这道题要用到后缀自动机。
首先,用第一个字符串建一个 S A M SAM SAM,然后在 S A M SAM SAM上面匹配第二个字符串。在匹配每一个字符的时候,如果当前位置有这个字符的转移,则直接转移;否则就往 p a r e n t parent parent边上跳,直到有转移为止。每匹配一个字符就用 n o w now now更新一次 a n s ans ans, a n s ans ans指最长公共子串的长度。
注意在每次转移时是 n o w + + now++ now++而不是将这个点的 l e n len len赋值给 n o w now now,因为 l e n len len指的是这个终点等价类的最大长度,而你不能保证当前匹配的字符串是最大长度。同理,在跳完 p a r e n t parent parent边找到可以转移的位置时, n o w now now应该等于 w [ p ] . l e n + 1 w[p].len+1 w[p].len+1而不是 w [ w [ p ] . n x t [ c ] ] w[w[p].nxt[c]] w[w[p].nxt[c]]。那为什么这里可以直接用 w [ p ] . l e n w[p].len w[p].len呢?因为跳了 p a r e n t parent parent边之后,现在的终点等价类的长度的最大值一定比原来的终点等价类的长度的最小值小。当前匹配的字符串的长度大于等于原来的终点等价类的长度的最小值,则当前匹配的字符串的长度一定大于现在终点等价类的最大值,所以可以直接用 w [ p ] . l e n w[p].len w[p].len。
匹配完第二个字符串之后, a n s ans ans即为答案。
code
#include<bits/stdc++.h>
using namespace std;
const int N=250000;
int s1,t1,siz=0,lst=0,ans=0;
char s[N+5],t[N+5];
struct node{
int len,link;
map<char,int>nxt;
}w[N*2+5];
void add(char c){
int cur=++siz;
w[cur].len=w[lst].len+1;
int p;
for(p=lst;p!=-1&&!w[p].nxt.count(c);p=w[p].link)
w[p].nxt[c]=cur;
if(p==-1) w[cur].link=0;
else{
int q=w[p].nxt[c];
if(w[p].len+1==w[q].len) w[cur].link=q;
else{
int cl=++siz;
w[cl].len=w[p].len+1;
w[cl].link=w[q].link;
w[cl].nxt=w[q].nxt;
for(;p!=-1&&w[p].nxt[c]==q;p=w[p].link)
w[p].nxt[c]=cl;
w[q].link=w[cur].link=cl;
}
}
lst=cur;
}
void find(){
int p=0,now=0;
for(int i=1;i<=t1;i++){
char c=t[i];
if(w[p].nxt.count(c)){
p=w[p].nxt[c];++now;
}
else{
for(;p!=-1&&!w[p].nxt.count(c);p=w[p].link);
if(p!=-1){
now=w[p].len+1;
p=w[p].nxt[c];
}
else{
now=0;p=0;
}
}
ans=max(ans,now);
}
}
int main()
{
scanf("%s%s",s+1,t+1);
s1=strlen(s+1);
t1=strlen(t+1);
w[0].link=-1;
for(int i=1;i<=s1;i++) add(s[i]);
find();
printf("%d",ans);
}