KMP算法,又称模式匹配算法,在线性时间内判断字符串A[1~N]是否为字符串B[1~M]的字串,求出字符串A在字符串B中各次出现的位置。
A与B尝试进行匹配:枚举字符串B中的每个位置i,把字符串A与字符串B的后缀B[i~M]对齐,向后扫描逐一比较A[1]与B[i],A[2]与B[i+1]是否相等。我们把这种比较称为A与B尝试进行“匹配”。
KMP分为两步:
1.对字符串A进行自我“匹配”,求出一个数组next,其中next[i]表示“A中以i结尾的非前缀字串”与“A的前缀”能够匹配的最长长度。
2.对字符串A与B进行匹配,求出一个数组f,f[i]表示“B中以i结尾的字串”与“A的前缀”能够匹配的最长长度。
next数组的求法:
1.初始化next[1]=J=0,假设next[1~i-1]已经求出,下面求解next[i]。
2.不断尝试扩展匹配长度j,如果扩展失败(下一个字符不相等),令j变为next[j],直至j为0(应该重新从头开始匹配)。
3.如果能够扩展成功,匹配长度j就增加1,next[i]的值就是j。
next[1]=0;
for(int i=2,j=0;i<=n;i++)
{while(j>0&&a[i]!=a[j+1])
j=next[j];
if(a[i]==a[j+1]) j++;
next[i]=j;
}
f数组的求法,与next基本相似
for(int i=1,j=0;i<=m;i++)
{while(j>0&&b[i]!=a[j+1])
j=next[j];
if(b[i]==a[j+1])
j++;
f[i]=j;
//if(f[i]==n),此时就是A在B中的某一次出现
}
最小表示法
给定一个字符串S[1~n],若果我们不把它的最后一个字符放到开头,最终会得到n个字符串,称这n个字符串是循环同构的。这些字符串中字典序最小的一个,称为字符串S的最小表示。
用B[i]来表示从i开始的循环同构字符串,即S[i~n]+S[1~i-1];为了节省时间,首先把S复制一份接在它的结尾,得到的字符串记为SS。显然,B[i]=SS[i~i+n-1]。
最小表示法
1.初始化i=1,j=2;
2.通过直接向后扫描的方法,比较B[i]与B[j]两个循环同构串。
(1)如果扫描了n个字符后仍然相等,说明S只由1种字符构成,任意B[i]都是它的最小表示。
(2)若果在i+k与j+k处发现不相等:
若SS[i+k]>SS[j+k],令i=i+k+1。若此时i=j,在令i=i+1。
若SS[i+k]<SS[j+k],令j=j+k+1.若此时i=j,令j=j+1。
3.若i>n,B[j]为最小表示;若j>n,B[i]为最小表示;
否则重复第2步。