串的模式匹配算法
BF法
原理
通过已知的主串S和模式串T,进行匹配,效果如下图所示,
第一步
第二步
第三步
第i步
这里关于书上给出的代码做出解释,首先让主串和模式串从首字符开始进行对比,若相当,则主串的索引与模式串的索引均递增1,在进行匹配,若第二个字符相同,则重复上述步骤,直至模式串的最后一个字符,若匹配中间过程中,存在一个或者多个字符不匹配,则模式串的索引回到第一个字符的位置,而主串的所以继续递增1,因此暴力破解法的时间复杂度 O 2 ( m × n ) O_2(m×n) O2(m×n),其中m为主串的长度,n为模式串的长度。
伪代码
根据《数据结构(C语言版)》中对暴力破解法的代码如下,
int Index(SString S, SString T, int pos)
{
//返回子串T在主串S中第pos个字符之后的位置。若不存在,则函数值为0。
//其中,T非空,1≤pos≤StrLength(S)。
i = pos;
j = 1;
while(i <= S[0] && j <= T[0])
{
if(S[i] == T[j]
{
++i;
++j;
}
else
{
i = i - j +2;
j = 1;
}
}
if(j > T[0])
{
return i - T[0];
}
else
{
return 0;
}
}
KMP算法
背景
由于在进行匹配的时候,当主串的长度和模式串的长度规格不大的时候,可以可以使用暴力破解法进行求解模式匹配,但是当主串的长度形如0000000000000000000000000001,而匹配的模式串形如0000000001,则计算量则曾几何级增加,因此需要研究出一种新的模式匹配算法——KMP算法,该算法的时间复杂度为 O ( n + m ) O(n+m) O(n+m),在这个复杂度下能够完成字符串的匹配。
计算过程
一开始字符串如下图所示,
在匹配到第三个位置的时候发现不匹配,此时按照暴力破解法,则需要将主串的索引从1->2,然后模式串需要3->1,而KMP算法,在保持原指针不回溯的时候,修改模式串的位置,则如下所示,
接着,如下,
然后
1号算法(Next数组)
这里先引入几个小的知识点
- 1、前缀:字符串的前缀指的是在一个字符串中,包含首字符但是不包含尾字符的所有子串的组合
- 2、后缀:字符串的后缀指的是在一个字符串中,包含尾字符但是不包含首字符的所有子串的组合
- 3、最长相同的匹配前缀后缀:指的是在一个字符串中找到一个首先是要最长的然后前缀、后缀需要相同的字符串子串才符合条件
- 4、前缀表:就是由最长相同的匹配前缀后缀组成的
比如说,
其实求Next数组就是,求解前缀表(在看B站上的教学视频是这么说的),下面介绍本文觉得计算Next数组比较快的方法,首先说明一下求Next数组的函数定义式
N e x t [ j ] = { 0 , w h e n j = 1 M a x { k ∣ 1 < k < j & ‘ P 1 ⋯ P k − 1 ’ = ‘ P j