KMP(字符串匹配算法)
KMP算法流程
B站视频学习笔记https://www.bilibili.com/video/BV1PD4y1o7nd.
字符串匹配需要我们在文本串中找到需要匹配的模式串,并返回文本串中匹配成功的首字符的位置
例:
文本串:a a b a a b a a f
模式串:a a b a a f
在讲解KMP算法之前有一些名词:
前缀:包括首字符不包括尾字符的所有子串
例:a a b a a f
a
a a
a a b
a a b a
a a b a a
后缀:包含尾字符不包括首字符的所有子串
例:a a b a a f
f
a f
a a f
b a a f
a b a a f
最长相等前后缀:
例:a a b a a f
子串 | 最长相等前后缀长度 |
---|---|
a | 0 |
a a | 1 |
a a b | 0 |
a a b a | 1 |
a a b a a | 2 |
a a b a a f | 0 |
KMP算法就是利用模式串中字符规律,当发生不匹配时,我们找到不匹配位置前面的模式串的字串,利用最长相等前后缀,找到和后缀对应得前缀的位置,在前缀位置后继续匹配,而不用回溯,减少计算时间复杂度。
如上图,我们在后缀aa后面f与b不匹配时,我们找到与后缀aa相等的前缀aa,在前缀aa后面的位置上继续和文本串进行比较,我们利用最长相等前后缀表来找到前缀的位置。
求解最长相等前后缀表
- 初始化列表进行存储
- 处理前后缀不相同的情况
- 处理前后缀相同的情况
本博客使用另一种方法求解最长相等前后缀表
如果上一个前后缀的最长相等前后缀为1,则如果我们希望下一个前后缀的最长相等前后缀加长,我们只能希望上一个前缀后一个字符,和后缀的后一个字符相等,此时在上个最长相等前后缀的基础上加1.
若前缀后一个字符与后缀后一个字符不相等,进行如下操作:
prefix=[-1,0] #最长相等前后缀表
l=1 #指向最长相等前后缀表的位置指针
i=1 #指向模式串的指针
while i<len(needle)-1:
if needle[i]==needle[prefix[l]]:
prefix.append(prefix[l]+1)
i+=1
l=i
else:
l=prefix[l]
if l==0:
if needle[0]!=needle[i]:
prefix.append(0)
i+=1
l=i