克努特-莫里斯-普拉特算法
设主串为S,子串为T。
举例说明:S="abcdefghrj",T=''abcdr''.
普通方式匹配效率低的原因在于d与r不匹配以后,将从主串的b字符开始匹配,此时我们知道r以前的都是匹配的,而子串恰好没有相同的字符,那么就说明r以前的都将不匹配,而普通算法的低效率就在这里。
KMP算法
最大的特点在于先对子串做了一个分析,减少了不必要的回溯,提高了效率。
现在接着刚才的实例:设i一个个表示主串的字符,j表示匹配到子串的序号。
kmp算法在r!=e以后,子串T的a将与S的重新开始匹配。减少了3次回溯。
当子串中有相同字符时:
实例:S=''ababaacder''
T=''ababe''
此时当e与a不匹配时,T中的第一位字符与第三位字符,第二位字符与第四位字符相同,由于e以前的字符都能匹配到,所以再次匹配时kmp算法可以直接在S的第三位开始,减少了一次回溯。
下面我们重点来讲一下kmp是怎么实现对子串的分析,从而做到减少回溯。
kmp算法用next[]数组表示再次进行匹配时应该在哪一位。
那么怎么求出next[]数组呢?
当j=1时,即匹配到第一个字符就不匹配时,next[1]=0;
当j=n,此时前n-1个字符是匹配的,存在与前面几个字符相同的子串时,设1<k<n,若"P1...P(k-1)"=P(j-k+1)...P(j-1)'',即存在与前面几个字符相同的子串,则next[n]=max(k).
当j=n且子串中不存在与前面几个字符相同的子串时,next[n]=1;
附上求next数组的代码:
void getnext(String T,int *next)
{
int i=1,k=0;
next[1]=0;
while(i<strlen(T))
{
if(k=0||T(i)==T(k)
{
i++;
k++;
next[i]=k;
}
else
k=next[k];
}
}
至于匹配的具体算法,除了使用next数组,其他思维方式与普通算法差不多。我就偷个懒哈。