串的模式匹配之kmp算法
设有两个串s和t,串t的定位就是要在串s中找到一个与t相等的子串。通常把s称为目标串,把t称为模式串,因此串定位查找也称为模式匹配。模式匹配成功是指在目标串s中找到一个一个模式串t;不成功则是指目标串s中不存在模式串t。在介绍kmp算法之前,我首先介绍一下Brute-Force算法。即暴力算法。
Brute-Force算法
暴力算法采用穷举的方法,基本思路就是目标串的第一个字符开始和模式串的第一个字符若相等,则逐个比较后续字符。否则目标串的第二个字符就开始重新和模式串的第一个字符比较。废话不多说,上图。
以上就是对目标串s="aaaaab"和模式串t="aaab"的暴力算法的示例分析,接下来我给出暴力代码的代码。
int BF(SqString s,SqString t)
{
int i = 0, j = 0;
while(i < s.length && j < t.length) //两个串都没有扫描完时循环
{
if(s.data[i] == t.data[j]){ //当前比较的两个字符相同
i++; //依次比较后续的两个字符
j++;
}
else{
i = i - j + 1; //扫描目标串的i回退,子串从头开始匹配
j = 0;
}
}
if(j >= t.length) return (i - t.length);//j超界,表示t是s子串并返回t在s中的位置
else return(-1); //模式匹配失败,返回-1
}
这个算法易于理解,但是效率不高。假设目标串s中含有n个字符,模式串t中含有m个字符,则这套算法最高效率的时间复杂度为O(m),即模式串t即为目标串的前m个字符。而最坏的情况的时间复杂度为O(m*n),而且一般都是接近最坏的情况!
kmp算法
由于暴力算法复杂度较高,所以产生了kmp算法,消除了主串指针的回溯,使效率大大提高了!
废话不多说,我们来举例分析。目标串为s=“abababaababaaababaa”,模式串为t=“ababaaababaa”,首先我们先列出模式串中的next数组。
j | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
t[j] | a | b | a | b | a | a | a | b | a | b | a | a |
next[j] | -1 | 0 | 0 | 1 | 2 | 3 | 1 | 1 | 2 | 3 | 4 | 5 |
怎么得到这个next数组的呢,首先我先说一个字符之前的公共前后缀。就是一个字符前的串头和串尾的字符序列,这个待会会很有用的,上图!
以上就是对next[j]数组的图解,若仍存在疑问可以在评论区提出来。下面奉上next[j]的代码。
void GetNext(SqString t,int next[])
{
int j, k;
j = 0, k = -1; //j扫描t,k记录t[j]之前与t开头相同的字符个数
next[0] = -1; //设置next[0]的值
while(j < t.length - 1) //求t中所有位置的next值
{
if(k == -1 || t.data[j] == t.data[k]) //k为-1或者比较的字符相等时
{
j++;
k++; //j,k依次移到下一个字符
next[j] = k; //设置next[j]为k
}
else k = next[k]; //k回退
}
}
然后我们就要进行目标串和模式串的对比了,上图!
以上就是匹配的图解,切记!那个跳回的位置只与模式串t有关,与目标串s无关。下面就是kmp算法代码。且时间复杂度仅有O(m+n),比之前的暴力算法就简单很多!
int KMPIndex(SqString s,Sqstring t)
{
int next[MaxSize], i = 0, j = 0;
GetNext(t,next);
while(i < s.length && j < t.length)
{
if(j == -1 || s.data[i] == t.data[j])
{
i++;
j++;
}
else j = next[j]; //i不变,j倒退
}
if(j >= t.length) return(i-t.length); //匹配成功,返回子串位置
else return(-1); //匹配失败,返回-1
}
如果喜欢,可以留下小心心哦