KMP算法

最新推荐文章于 2023-05-27 21:59:37 发布

zero to 0

最新推荐文章于 2023-05-27 21:59:37 发布

阅读量345

点赞数

文章标签： c语言算法数据结构

本文链接：https://blog.csdn.net/navylhjjlh/article/details/124058045

版权

首先来看一道题。

题目：给定两个字符串haystack（大海捞针），needle（针），写一个函数去证明needle是否为haystack的字串，如果是就返回字串在字符串出现的第一个位置，反之返回-1.规定needle为空字符串则返回0.（注：下标是从0开始的）

比如：

haystack="hello"，needle="ll"，返回值为2，因为在字符串haystack下标为2的位置找到了字串

haystack="helleo"，needle="lee",返回值为-1

或许大家会发现这怎么跟strstr函数作用有点像呢，其实题目的要求就是写代码去解释strstr函数的原理。

大家先思考动手写代码。

答案：

图解：

时间复杂度O(m*n),m为haystack的长度，n为needle的长度

如果haystack为"aaaaaaaac",needle为"aaab",如果再使用上面的方法效率就非常低了。

那应该怎么去优化呢，这就引入了今天主题KMP算法，也就是三个大佬名字的首个字母组成的。

我学这个算法的时候有些懵逼，一整天的时间都花在上面了。今天我就来讲解一下我的理解。

首先先看一下KMP算法的原理:

如果主串S="bbabbdbbabbcd"，需要匹配的T="bbabbc"

如果按照朴素模式匹配的算法，流程是上图的②->⑦

这样的算法是比较让人能够理解的，但是会发现效率比较低，重复比较多的元素比较多。大家仔细的观察一下，对于匹配的字符串来说，"bbabbc",其中前面有bb，后面也有重复的bb，如果直到字符c才不相等，c之前的bbabb都是和主串相等的，bb是重复的出现了，下一次的比较直接从字符a开始即可，不需要在重复的去比较bb。所以直接可以跳过流程②③，将④的流程改为：

这是KMP算法的关键。这里我换一个更简单的栗子给大家进一步说明。

需要匹配的字符串为"abcx"，其中第一个字符‘a’与后面的字符“bcx”都不相等，流程①中，前三位字符都是相等的，这就意味这字符‘a’不会不可能与主串的下标为1，2字符‘b’‘c’相等的，所以流程②③是多余的。

那么KMP算法具体是怎么判断下标j的位置的，也就是怎么判断匹配字符串的下标位置的。

在这里我再举个栗子让大家找找规律:

根据上面已有的知识点，需要匹配的串首字母‘a’与第二个字符‘b’和第三个字符‘c’是不想等的，流程②和③是多余的。

因为首字符的'a'和第四位字符'a',第二位字符'b'和第五位字符'b'相等，在流程①的时候就已经知道第四位字符‘a’和第五位字符‘b’是和主串相等的，那么意味着，第一位字符‘a’和第二位字符‘b’就不再需要和主串的第四位字符‘a’和第五位字符‘b’进行比较了，因为肯定也是相等的，因此流程④也是多余的。