数据结构学习笔记：KMP

最新推荐文章于 2022-12-13 21:35:46 发布

gigi就是我

最新推荐文章于 2022-12-13 21:35:46 发布

阅读量496

点赞数

文章标签：数据结构 kmp

KMP算法的关键是利用匹配失败后的信息，尽量减少模式串与主串的匹配次数以达到快速匹配的目的。

给定两个字符串T和W，长度分别为m和n，判断W是否在T中出现，如果出现则返回出现的位置。常规方法是遍历T的每一个位置，然后从该位置开始和W进行匹配，但是这种方法的复杂度是O(mn)。kmp算法通过一个O(n)的预处理，使匹配的复杂度降为O(m+n)。

比如我们要在字符串Ｔ＝“ＡＢＣＤＡＢＣＤＡＢＤＥ”中查找字符串Ｗ＝＂ＡＢＣＤＡＢＤ＂出现的位置
这里写图片描述

很明显可以看出前６位都是匹配的，然而第７位不匹配，一般的做法就是从Ｔ[i]（i从1到9）开始和W开始循环比较。直到i=4，也就是图2，比较成功返回下标4。

这里写图片描述
这样比较无异效率很低，然而我们发现在字符串”ABCDAB”之中有两个”AB”，第一次比较失败之后，又循环比较了四次，把W字符串从第一个”AB”的位置移动到了第二个”AB”处（显然这四次比较毫无意义）。KMP算法就是要去掉这些无意义的比较。

部分匹配值

“前缀”指除了最后一个字符以外，一个字符串的全部头部组合；
“后缀”指除了第一个字符以外，一个字符串的全部尾部组合。

“部分匹配值”就是“前缀”和”后缀”的最长的共有元素的长度。以Ｗ字符串”ABCDABD”为例：

"A"的前缀和后缀都为空集，共有元素的长度为0；
"AB"的前缀为[A]，后缀为[B]，共有元素的长度为0；　

"ABC"的前缀为[A, AB]，后缀为[BC, C]，共有元素的长度0；　
"ABCD"的前缀为[A, AB, ABC]，后缀为[BCD, CD, D]，共有元素的长度为0；

"ABCDA"的前缀为[A, AB, ABC, ABCD]，后缀为[BCDA, CDA, DA, A]，共有元素为"A"，长度为1；
"ABCDAB"的前缀为[A, AB, ABC, ABCD, ABCDA]，后缀为[BCDAB, CDAB, DAB, AB, B]，共有元素为"AB"，长度为2；

"ABCDABD"的前缀为[A, AB, ABC, ABCD, ABCDA, ABCDAB]，后缀为[BCDABD, CDABD, DABD, ABD, BD, D]，共有元素的长度为0。