【背景】
我们想要从文本串中找到模式串开始的index。
例如:
文本串text:aabaabaaf
模式串pattern:aabaaf
当暴力匹配时:
aabaabaaf
aabaaf
aabaabaaf
aabaaf
…
aabaabaaf
aabaaf
本次匹配的时候遇到了冲突,下一次匹配的时候继续从
aabaabaaf
\ aabaaf
开始匹配。
但是这样的暴力匹配浪费了大量的时间,所以有了KMP算法来解决字符串匹配。应用KMP算法时,当遇到
aabaabaaf
aabaaf
这样的冲突时,在下一次匹配的时候直接从
aabaabaaf
\ \ \ aabaaf
开始匹配
【原理】
为什么KMP算法可以按照上述的方法直接从某一个字符开始匹配呢?这是因为对于模式串aabaaf来说,在f处不匹配了,但是f之前的都是匹配成功的,即
aabaabaaf 与
aabaaf
都是匹配成功的。
则
aabaabaaf 与
aabaaf
中的aa也是匹配成功的。
又因为aabaaf是在f处不匹配的,所以找到f前的子串aabaa,在这个子串中有一个后缀是aa,也有一个与之相同的前缀是aa,所以可以直接用与后缀相同的前缀去匹配之前已经匹配成功的冲突之前的部分,即
aabaabaaf
\ \ \ aabaaf
也就是说可以直接跳到aabaaf中的b处(与后缀相等的前缀的后面)开始重新匹配。
前缀、后缀、最长相等前后缀
前缀:包含首字母、不包含尾字母的所有子串
例如:aabaaf的前缀有a、aa、aab、aaba和aabaa
后缀:包含尾字母、不包含首字母的所有子串
例如:aabaaf的后缀有f、af、aaf、baaf和abaaf
最长相等前后缀:
a的最长相等前后缀为“”
aa的最长相等前后缀为a
aab的最长相等前后缀为“”
aaba的最长相等前后缀为a
aabaa的最长相等前后缀为aa
aabaaf的最长相等前后缀为“”
所以aabaaf对应的最长相等前后缀的长度为010120
当在匹配过程中遇到冲突时,即
aabaabaaf 和
aabaaf
不匹配时,就找到冲突的位置之前的最长相等前后缀的长度是多少(此处aabaaf的f的前一位所对应的最长相等前后缀的长度是2),然后就跳到索引为2的地方,即aabaaf中的b处,再继续开始匹配。
那么为什么要这么做呢?
这是因为在
aabaabaaf和
aabaaf
不匹配时,f前面的子串aabaa的最长相等前后缀的长度是2,这个2意味着有一个长度为2的后缀aa,前面有一个与之相等长度为2的前缀aa,后缀的后面冲突了,而之前都是匹配成功的,且存在最长相等前后缀aa,所以可以从与之相等的前缀的后面一个位置继续开始匹配,这个位置就是aabaa的最长相等前后缀的长度(因为前缀的后面一个位置的index正好是前缀的长度(下标是从0开始的)),即跳到下标为2的位置——b开始继续匹配。
这就是整个KMP算法的流程,可以看出在这个过程中有一个非常重要的步骤,就是得到模式串中每一个位置对应的最长相等前后缀的长度。在我们的例子中,模式串与aabaaf与它对应的最长相等前后缀的长度为
aabaaf
010120
这个对应的最长相等前后缀的长度在KMP算法中记作next数组,接下来介绍next数组的计算。
【next数组的计算】
定义两个指针i和j,j指向前缀末尾的位置,i直线后缀末尾的位置,同时j还代表i之前(包括i)的子串的最长相等前后缀的长度。
- j首先初始化为0,next[0]自然是0
- i从下标为1开始循环到模式串s的末尾
2.1. 当s[i] != s[j]时,代表前缀和后缀所对应的字符不相等,j应该向前回退,也就是回到next表的前一位(此处需要注意边界条件和循环)
2.2. 当s[i]==s[j]时 ,j+=1,i+=1,next[I]=j(因为j还代表i之前(包括i)的子串的最长相等前后缀的长度)
【代码实现】
class Solution(object):
def strStr(self, haystack, needle):
"""
:type haystack: str
:type needle: str
:rtype: int
"""
if needle=="":
return 0
# next表构建
next=[]
j=0
next.append(0)
for i in range(1, len(needle)):
while j>0 and needle[i]!=needle[j]:
j = next[j-1]
if needle[i] == needle[j]:
j += 1
next.append(j)
j=0
for i in range(len(haystack)):
while j>0 and haystack[i]!=needle[j]:
j = next[j-1]
if haystack[i]==needle[j]:
j += 1
if j==len(needle):
return i-len(needle)+1
return -1