KMP 算法理论（萌新记录）

最新推荐文章于 2024-08-22 17:27:46 发布

码畜c

最新推荐文章于 2024-08-22 17:27:46 发布

阅读量68

点赞数

分类专栏：数据结构与算法文章标签：算法

本文链接：https://blog.csdn.net/qq_38074398/article/details/128250242

版权

数据结构与算法专栏收录该内容

5 篇文章 0 订阅

订阅专栏

用途

改（抄）自某乎

文本串：我我是我是废我是废物废物是我
模式串：我是废物

开始匹配：

我我是我是废我是废物废物是我

我
我我

欧豁，匹配失败了。那么从当前匹配字符的下一个字符开始匹配：

我我是我是废我是废物废物是我

一我
一我是
一我是我

欧豁，又匹配失败了。继续从下一个字符开始匹配。。。等等？你是不是虎啊，下一个明显匹配不上，应该跳过两个后再匹配！好好好，你声大你有理，我移两个我移两个：

我我是我是废我是废物废物是我

一一一我
一一一我是
一一一我是废
一一一我是废我

又对不上了，这。。这次再向后移动几个（小声）？这明显三个啊！

我我是我是废我是废物废物是我

一一一一一一我
一一一一一一我是
一一一一一一我是废
一一一一一一我是废物

匹配上了，我是废物！！！

例子结束了，思考一个问题，当匹配失败时，我们如何知道的需要向后移动的最优次数？这个就是 KMP 算法中的 Next 数组帮我们做到的。使得当每次匹配失败时，不用傻傻的向后移动一下（暴力解法）。

Next 数组

前缀

在一个文本串中，不包含尾字母，从左至右的可以组成的所有序列。

例：a b c d

前缀有：

a
a b
a b c

后缀

在一个文本串中，不包含首字母，从左至右的可以组成的所有序列。

例：a b c d

后缀有：

d
c d
b c d

注意，后缀也是从左至右的。如：d、dc、dcb 这样的并不是后缀。

特殊例子

例：a（可以是任意个单字符）

因为文本串中只有一个字符，所以它既没有前缀，也没有后缀。

最长相等前后缀

例：a b a b a

前缀：

a
a b
a b a
a b a b

后缀：

a
b a
a b a
b a b a

最长相等前后缀：a b a，即 a b a b a 这个字符串的最长相等前后缀为 a b a。

Next 数组的内容

介绍了前后缀以及最长相等前后缀的概念后，就可以来说一下 Next 数组了，它是 KMP 算法的核心。Next 数组中存放的，就是模式串（需要匹配的字符串）自身，以及所有子串的最长相等前后缀的长度。

上栗子，模式串：a a b a a

模式串的 Next 数组，方便理解，先给出表格版：

索引	代表字符串	最长相等前后缀长度（数组值）
0	a	0
1	aa	1
2	aab	0
3	aaba	1
4	aabaa	2

简版：

"a a b a a"
[0 1 0 1 2]

Next 数组的应用

现在我们已经得到了 Next 数组，可是如何进行应用呢？如何用它使得每次可以移动正确的次数，减少匹配次数？

上栗子：

文本串：a a b a a b a a c
模式串：a a b a a c
模式串的 Next 数组：[0 1 0 1 2 0]

流程：若当前模式串字符匹配失败时，找到前一个字符在 Next 数组中的最长相等前后缀长度值。如果将这个长度作为索引，正好可以指向由首字符到前一个字符组成的字符串的最长相等前缀的下一个字符。继续使用该字符进行匹配。若又匹配失败，回到流程的开头，反复如此。可以发现当具有相等前后缀时，一直在移动模式串。

比如栗子中，当用模式串索引为 5 的字符 c 匹配文本串索引为 5 的字符 b 时匹配失败，那么就看 c 的前一个字符 a 在 Next 数组中的值，为 2。那么取模式串中索引为 2 的字符 b 继续和文本串中索引为 5 的字符 b 继续匹配，直到最后匹配成功。