KMP算法详解

最新推荐文章于 2024-07-09 17:14:48 发布

frankzheng92

最新推荐文章于 2024-07-09 17:14:48 发布

阅读量364

点赞数

分类专栏：编程语言文章标签：数据结构 kmp

本文链接：https://blog.csdn.net/frankzheng92/article/details/44807949

版权

编程语言专栏收录该内容

2 篇文章 0 订阅

订阅专栏

                                        **KMP算法详解**

一、前言
本文写于2015年3月，由于最近回顾数据结构与算法的一些内容，因此重新复习了经典的模式匹配算法KMP。该算法在严蔚敏的经典教材《数据结构》中有着详细的描述，不过笔者觉得书中将该算法写复杂了。当然也可能是笔者才疏学浅，没有发现那么写的好处。以上仅为个人观点，这里详述我自己理解的KMP算法。欢迎大家留言交流！
KMP算法是经典的模式匹配算法,由D.E.Knuth与V.R.Pratt和J.H.Morris同时发现，因此人们称它为克努特—莫里斯—普拉特操作（简称KMP算法）。KMP算法的关键是利用匹配失败后的信息，尽量减少模式串与主串的匹配次数以达到快速匹配的目的。具体实现就是实现一个next()函数，函数本身包含了模式串的局部匹配信息。
二、暴力匹配法
现在考虑模式匹配问题：我们有一个原串S和模式串T，模式匹配问题就是在原串中寻找与模式串相同的子串。那么我们该怎么做呢？
首先，我们先考虑暴力匹配方法。所谓的暴力匹配方法就是在原串中一个一个的配对模式串。假设当前原串S[i]和模式串T[j]相同，那么下一步我们要匹配S[i+1]和T[j+1]。
暴力匹配算法如下所示：
(1)如果匹配成功，则匹配下一对，即i++,j++;
(2)如果匹配失败，则模式串回溯到开始，即 i = i - j + 1; j = 0;
int main(char* s, char* t)
{
int sLen = strlen(s);
int tLen = strlen(t);
int i = 0;
int j = 0;
while (i < sLen && j < tLen)
{
if (s[i] == t[j])
{
//匹配成功（即S[i] == P[j]），则i++，j++
i++;
j++;
}
else
{
//匹配失败（即S[i] != P[j]），令i = i - (j - 1)，j = 0
i = i - j + 1;
j = 0;
}
}
//返回模式串t在文本串s中的位置，否则返回-1
if (j == tLen)
return i - j;
else
return -1;
}
三、KMP算法
从这里我们开始讲述更加简便的模式匹配方法——KMP算法。KMP算法的重点就是利用next数组，充分利用前面已经匹配的信息来简化匹配过程。该算法的流程如下：
step1：输入待匹配的模式串T和原串S；
step2：检验模式串T是否是单个字符，是则直接匹配，否则计算next数组；
step3：令 i = 0; j = -1;并且 next[0] = -1；
step4：当 i < strlen(T)时，循环计算相应 next；
step5：如果 j == -1 或者 T[i] == T[j]；则 next[++i] = ++j；否则j = next[j]；
step6：重新令i = 0；j = 0；
step7：当 i < strlen(S)时，循环匹配；
step8：如果 j == -1 或者 T[j] = S[i]，++i; ++j；否则 j = next[j]；
step9：如果 j == strlen(T)，则匹配成功。
下面的代码是笔者刷微软hihoCoder题(http://hihocoder.com/problemset/problem/1032)的代码，该题的意思就是求在原串中模式串出现的次数，代码如下所示：
next数组求解：
int *get_next(char *pat_str){
int pat_len = strlen(pat_str);
int next = (int )malloc(pat_len*sizeof(int));
int i = 0, j = -1;
next[0] = -1;
while(i < pat_len){
if(j == -1 || pat_str[i] == pat_str[j])
next[++i] = ++j;
else
j = next[j];
}
return next;
}
KMP算法部分：
int count_KMP(char *pat_str,char *ori_str){
int ans = 0;
int *next = get_next(pat_str);
int i = 0, j = 0;
int pat_len = strlen(pat_str);
int ori_len = strlen(ori_str);
while(i < ori_len){
if(j == -1 || pat_str[j] == ori_str[i]){
i++;
j++;
}
else
j = next[j];
if(j == pat_len){
ans++;
}
}
return ans;
}

frankzheng92

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
KMP算法详解

**KMP算法详解**一、前言本文写于2015年3月，由于最近回顾数据结构与算法的一些内容，因此重新复习了经典的模式匹配算法KMP。该算法在严蔚敏的经典教材《数据结构》中有着详细的描述，不过笔者觉得书中将该算法写复杂了。当然也可能是笔者才疏学浅，没有发现那么写的好处。以上仅为个人观点，这里详述我自己理解的KMP算法。欢迎大家留言交流！ KMP算法是经典的模式匹配算法,由D.E.Knuth与V
复制链接

扫一扫