KMP算法
KMP主要应用在字符串匹配上。
KMP的主要思想是当出现字符串不匹配时,可以知道一部分之前已经匹配的文本内容,可以利用这些信息避免从头再去做匹配了。
核心思想:找最长公共前后缀
遇见冲突的时候向前回退,遇见冲突的时候找冲突位置之前的最长公共前后缀,对于公共二字表示模式串和样本串的最长前后缀是一样的,因此冲突时不用只向后移动一步,可以直接把模式串移动到模式串的前缀和样本串的后缀相同的位置。
前缀
指不包含最后一个字符的所有以第一个字符开头的连续子串。
后缀
指不包含第一个字符的所有以最后一个字符结尾的连续子串。
代码的主要难点在与求next数组
求next数组:
next数组中存储的是最长公共前后缀
j 代表 前缀尾 也即pattern[0:i]的最长前缀长度
i 代表 后缀尾 也即正在判断pattern[0:i]的最长前缀长
0~i 代表 目前正判断模式串的哪一部分
Case1: 当next[i] = next[j] 时,则next[0 : i] = next[0 : i-1] + 1即当前的最长前缀 = 原本的前缀 + 1,pattern[0 : j] == pattern[i-j : i ],然后j ++ ,i ++,再循环着判断下一个pattern[i]和pattern[j]是否相等
Case2: 当next[i] != next[j] 时,此时说明pattern[0 : j] != pattern[i-j : i ],应该退而求其次,这个不行,那就找比这个短的,使用next[j-1]的值来找
推荐视频:KMP算法之爆锤next数组
由于不同人定义的next数组不同,在我求next数组时,图二中的j相当于i,k相当于j,如果某一处不匹配,则应为 k = next[k-1],而不是k = next[k]
Leetcode题目: 实现 strStr()
代码如下:
class Solution:
def strStr(self, haystack: str, needle: str) -> int:
a = len(haystack)
b = len(needle)
if a == 0 and b == 0:
return 0
if b == 0:
return 0
next_arr = self.getnext(needle)
j = 0
for i in range(a):
if needle[j] == haystack[i] and j == b-1:
return i-(b-1)
elif needle[j] == haystack[i]:
j += 1
else: # 两者不相等时
while j > 0 and needle[j] != haystack[i]:
j = next_arr[j-1]
if needle[j] == haystack[i]: # 如果变换过后两者相等 那么j ++ 与后一个haystack[i]进行比较
j += 1
return -1
def getnext(self,s):
s = list(s)
j = 0
next = [0] * len(s)
next[0] = 0
for i in range(1,len(s)):
while j > 0 and s[i] != s[j]:
j = next[j-1]
if s[i] == s[j]:
j += 1
next[i] = j
return next