kmp算法

最新推荐文章于 2024-06-10 20:40:39 发布

胖大海提溜圆

最新推荐文章于 2024-06-10 20:40:39 发布

阅读量182

点赞数

分类专栏：数据结构文章标签：字符串数据结构

本文链接：https://blog.csdn.net/Disy13/article/details/107606457

版权

数据结构专栏收录该内容

3 篇文章 0 订阅

订阅专栏

kmp算法

基本思想
算法流程
next向量计算
代码
图片来源

基本思想

目标(target)：主串
模式(pattern)：要在主串中寻找的子串
从左往右将模式的每个字符和对应位置的目标字符比较，在模式的第j位不匹配称为失配，则模式中失配位置之前的子串 $P_0P_1...P_{j-1}$ 全部匹配上：
$T:T_0T_1...$ $T_sT_{s+1}...T_{s+j-1}$ $T_{s+j}$ $T_{n-1}$
$P$ : $P_0P_1$ $P_{j-1}$ $P_j$ $P_m$
若此时在模式P中存在最大的 $k$ ，使得 $P_0...P_k=P_{j-k-1}...P_{j-1}$ ，即模式 $P$ 中有首尾重叠的部分，则下次比较可以将模式P向后移动 $j - k - 1$ 位：
$T:T_0T_1...$ $T_sT_{s+1}...$ $T_{s+j-k-1}...T_{s+j-1}$ $T_{s+j}$ $T_{n-1}$
$P$ : $P_0P_1$ $. . .$ $P_{j-k-1}$ $P_{j-1}$ $P_j$ $P_m$
$P$ : $P_0$ $P_{k}$ $P_{k+1}...P_j...P_m$
由 $k$ 的极大性可以保证将模式P向后移动少于 $j - k - 1$ 位不会匹配，因为若匹配上了，意味着有更大的 $k$ 满足 $P_0...P_k=P_{j-k-1}...P_{j-1}$ ，从而破坏了 $k$ 的极大性。

由上述分析可知对于某个 $j$ ， $k$ 的取值只和模式 $P$ 有关，从而对于固定的 $P$ ， $k$ 是 $j$ 的函数，记 $k = n e x t [j]$ ， $n e x t [j]$ 表达式，后续给出其求法：
$next[j]=\begin{cases} -1 &\text{} j=0 \\ k+1 &\text{} k为满足0\leqslant k<j-1且P_0...P_k=P_{j-k-1}...P_{j-1}的最大整数 \\ 0 &\text{else } \end{cases}$

算法流程

$s t a r t$ ：从目标 $T$ 的 $s t a r t$ (从0开始)处开始匹配模式 $P$
$len\_match$ ： $P$ 中已经匹配上的长度，也即 $P$ 进行匹配的起始位置，初始为0
$length\_target$ ： $T$ 的长度
$length\_pattern$ ： $P$ 的长度
$n e x t$ ：数组，表示 $P$ 的 $n e x t$ 向量
1、若 $length\_pattern + start> length\_target$ 则返回-1（表示匹配失败）
2、从左到右逐一比较模式 $P_{len\_match}...P_m$ 和目标的字符，若全部匹配则返回目标匹配的起始位置 $s t a r t$ ；否则假设直到 $P_j$ 不匹配：
若 $n e x t [j] = - 1$ （即 $j = 0$ ，第一个字符就匹配失败），则 $s t a r t$ 自增，转1；
否则将 $s t a r t$ 增至 $P$ 与原来的 $P$ 有 $n e x t [j]$ 个重合，根据 $n e x t [j]$ 定义，重合部分 $T$ 和 $P$ 全部匹配，从而只需要从下一个位置，即 $n e x t [j]$ 开始继续比较,，故令 $len\_match=next[j]$ ，转1。
例如 $T = a c a b a a b a a b c a c a a b c, P = a b a a b c a c 时的匹配过程如下：$
kmp算法例子

next向量计算

由定义 $n e x t [0] = - 1$ ，表示 $P_0$ 失配时 $s t a r t$ 需要向后移动1位重新开始匹配。
$n e x t [1] = 0$ (定义中的else情况)。
对于失配位置 $j$ ， $n e x t [j]$ 的意义为 $P_0P1...P_{j-1}$ 首尾能重叠的最大长度，即满足 $P_0...P_k=P_{j-k-1}...P_{j-1}$ 的最大的 $k+1，0\leqslant k<j-1$ ，若不存在重叠部分即为0。
为了求 $n e x t [j]$ ，可以考虑其与 $n e x t [j - 1]$ 的关系。
1、设 $k = n e x t [j - 1] ， j > 1$ ，则由 $n e x t [j - 1]$ 的意义有 $P_0...P_{k-1}=P_{j-k-1}...P_{j-2}$ ：
$P_0P_1$ $. . .$ $P_{j-k-1}$ $P_{j-2}$ $P_{j-1}P_j...P_m$
$P_0$ $P_{k-1}$ $P_k$ $P_j...P_m$
2、若 $P_k=P_{j-1}$ ，则有 $P_0...P_k=P_{j-k-1}...P_{j-1}$ ，且此 $k$ 具有极大性，从而 $n e x t [j] = n e x t [j - 1]$ ，返回。
3、若 $P_k\neq P_{j-1}$ ，则需要寻找最大的 $k^{'}$ 使得 $P_0...P_{k'}=P_{j-k'-1}...P_{j-1}$ 成立：
$P_0P_1$ $. . .$ $P_{j-k-1}...P_{j-k'-1}...P_{j-2}$ $P_{j-1}$ $P_j...P_m$
$P_0$ $P_{k-1}$ $P_k$ $P_j...P_m$
$P_0$ $P_{k'-1}$ $P_{k'}$ $P_m$
于是有 $P_0...P_{k'-1}=P_{k-k'}...P_{k-1}$ ，即 $k^{'} = n e x t [k]$ 。
4、若 $k^{'} = - 1 ，则 n e x t [j] = 0 ，否则令 k = k^{'}$ ，转2.
例如 $P = a b a a b c a c 的 n e x t 向量计算过程如下：$
next向量计算例子

代码

代码在这里

图片来源

例子的图片来自清华大学殷人昆和王宏的数据结构电子教案。

胖大海提溜圆

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
kmp算法

kmp算法基本思想算法流程next向量计算代码图片来源基本思想目标(target)：主串模式(pattern)：要在主串中寻找的子串从左往右将模式的每个字符和对应位置的目标字符比较，在模式的第j位不匹配称为失配，则模式中失配位置之前的子串P0P1...Pj−1P_0P_1...P_{j-1}P0P1...Pj−1全部匹配上：T:T0T1...T:T_0T_1...T:T0T1...TsTs+1...Ts+j−1T_sT_{s+1}...T_{s+j-1}TsTs+1...Ts+j−1
复制链接

扫一扫