KMP算法是求一个字串在另一个字串,完全匹配,处于第几个,完全匹配:
eg:
ABABABCABAABABABAB //test i
ABABCABA //pattern j
这两个字符串从第3个起完全匹配。
按照普通的想法就是一个一个比较,遇到不相等的整体向右移动一位,然后再依次比较。
此方法计算量太大,下面的KMP算法就可以很好解决这一问题。
步骤:
1.求出他们的对称相等子序列,并保存再prefix[]数组里
0 A
0 AB
1 ABA
2 ABAB
0 ABABC
1 ABABCA
2 ABABCAB
3 ABABCABA
2.把prefix向右移动一位,prefix[0]=-1,最高位舍去
3.依次比较,如果相等,i++,j++
4.如果不等,则找prefix[j],将j=prefix[j]
5.设定len,len为j的下一位,用于求出下一个的对称公共子序列
下面为具体实现代码:
//KMP算法
#include<stdio.h>
#include<stdlib.h>
#include<string.h>
//实现匹配表(prefix[])
void prefix_table(char pattern[],int prefix[],int n) //pattern短的要匹配的字符串,n字符串个数,prefix匹配表
{
prefix[0]=0; //第一个对称最长子序列肯定为0
int len=0;
int i=1;
while(i<n)
{
if(pattern[i]==pattern[len]) //如果相等则比较下一个
{
len++;
prefix[i]=len;
i++;
}
else
{
if(len>0) //与前一个斜着对齐
{
len=prefix[len-1];
}
else //如果len等于0,则最长公共子序列为0;(如果为1的话len为1)
{
prefix[i]=len;
i++;
}
}
}
}
//整体向右移动一位,第一位补-1
void move_prefix_table(int prefix[],int n)
{
int i;
for(int i=n-1;i>0;i--)
{
prefix[i]=prefix[i-1];
}
prefix[0]=-1;
}
void kmp_search(char text[],char pattern[])
{
int n=strlen(pattern); //短的字符串长度
int m=strlen(text); //长的字符串长度
int * prefix=(int *)malloc(sizeof(int) * n);;
prefix_table(pattern,prefix,n);
move_prefix_table(prefix,n);
//text[i] , len(text) =m;
//pattern[j],len(pattern)=n;
int i=0;
int j=0;
while(i<m)
{
if(j==n-1&&text[i]==pattern[j]) //打印结果
{
printf("Found Pattern at %d\n",i-j);
j=prefix[j]; //将匹配值对应的下标的数与j对齐
}
if(text[i]==pattern[j])
{
i++;
j++;
}
else
{
j=prefix[j];
if(j==-1)
{
i++;j++;
}
}
}
}
int main()
{
char pattern[]="ABABCABAA";
char text[]="ABABABCABAABABABAB";
kmp_search(text,pattern);
return 0;
}