KMP子字符串匹配算法学习笔记

本文详细介绍了KMP算法中的next数组构造过程,包括初始化、处理前后缀不相同和相同情况,以及如何使用next数组进行文本串与模式串的匹配。重点在于理解如何通过动态规划构建next数组并优化字符串匹配效率。
摘要由CSDN通过智能技术生成

这样就避免的死循环,只不过后续取 前缀表里的数值的时候,要记得再+1,才是我们想要的值。

最后得到的新前缀表在KMP算法里通常用一个next数组来表示。

注意这个next数组就根据模式串求取的。

使用next数组来匹配


有了next数组,就可以根据next数组来 匹配文本串s,和模式串t了。

注意next数组是新前缀表(旧前缀表统一减一了)。

匹配过程动画如下:

在这里插入图片描述

放码过来


下文统称haystack为文本串, needle为模式串。

haystack, needle出处

构造next数组

定义一个方法getNext来构建next数组,参数为一个名为next数组,和一个字符串。代码如下:

private void getNext(int[] next, String s) {}

构造next数组其实就是计算模式串s,前缀表的过程。主要有如下三步:

  1. 初始化

  2. 处理前后缀不相同的情况

  3. 处理前后缀相同的情况

一、初始化

定义两个指针i和j:

  • j指向前缀终止位置(严格来说是终止位置减一的位置),

  • i指向后缀终止位置(与j同理)。

(通常是先i后j,为什么这里相反,接下来看代码就清楚了。)

然后还要对next数组进行初始化赋值,如下:

int j = -1;

next[0] = j;

  • j 初始化为 -1原因是前文说过前缀表要统一减一的操作(避免死循环得情况),所以j初始化为-1。

  • next[] 表示 i(包括i)之前最长相等的前后缀长度(其实就是j),next[0]初始化为j 。

二、处理前后缀不相同的情况

因为j初始化为-1,那么i就从1开始,进行s[i] 与 s[j+1]的比较。(这里可能一开始不适应理解,不用急。)

所以遍历模式串s的循环下表i 要从 1开始,代码如下:

for(int i = 1; i < s.length(); i++) { // 注意i从1开始

如果 s[i] 与 s[j+1]不相同,也就是遇到 前后缀末尾不相同的情况,就要回退。

如何回退?next[j]就是记录着j(包括j)之前的子串的相同前后缀的长度。

那么 s[i] 与 s[j+1] 不相同,就要找 j+1前一个元素在next数组里的值(就是next[j])。

所以,处理前后缀不相同的情况代码如下:

while (j >= 0 && s.charAt(i) != s.charAt(j + 1)) { // 前后缀不相同了

j = next[j]; // 回退

}

三、处理前后缀相同的情况

如果s[i] 与 s[j + 1] 相同,那么就同时向后移动i 和j 说明找到了相同的前后缀,同时还要将j(前缀的长度)赋给next[i], 因为next[i]要记录相同前后缀的长度。

代码如下:

if (s.charAt(i) == s.charAt(j + 1)) { // 找到相同的前后缀

j++;

}

next[i] = j; // 将j(前缀的长度)赋给next[i]

最后整体构建next数组的函数代码如下:

private void getNext(int[] next, String s) {

int j = -1;

next[0] = j;

for(int i = 1; i < s.length(); i++) { // 注意i从1开始

while (j >= 0 && s.charAt(i) != s.charAt(j + 1)) { // 前后缀不相同了

j = next[j]; // 向前回溯

}

if (s.charAt(i) == s.charAt(j + 1)) { // 找到相同的前后缀

j++;

}

next[i] = j; // 将j(前缀的长度)赋给next[i]

}

}

代码构造next数组的逻辑流程动画如下:

在这里插入图片描述

得到了next数组之后,就开始用它做匹配。

使用next数组来做匹配

在文本串haystack里找是否出现过模式串needle。定义两个下表j 指向模式串起始位置,i指向文本串其实位置。

那么j初始值依然为-1,这是因为next数组里记录的起始位置为-1

i就从0开始,遍历文本串,代码如下:

for (int i = 0; i < haystack.length(); i++) { // 注意i就从0开始

接下来就是 haystack.charAt(i) 与 needle.charAt(j + 1) (因为j从-1开始的) 进行比较。

如果 haystack.charAt(i) 与 needle.charAt(j + 1) 不相同,j就要从next数组里寻找下一个匹配的位置。

代码如下:

while(j >= 0 && haystack.charAt(i) != needle.charAt(j + 1)) { // 不匹配

j = next[j]; // j 寻找之前匹配的位置

}

如果 haystack.charAt(i) 与 needle.charAt(j + 1) 相同,那么i 和 j 同时向后移动, 代码如下:

if (haystack.charAt(i) == needle.charAt(j + 1)) { // 匹配,j和i同时向后移动

j++;

}

如果j指向了模式串t的末尾,那么就说明模式串t完全匹配文本串s里的某个子串了。

本题要在文本串字符串中找出模式串出现的第一个位置(从0开始),所以返回当前在文本串匹配模式串的位置i 减去 模式串的长度,就是文本串字符串中出现模式串的第一个位置。

代码如下:

if (j == (needle.length() - 1) ) { // 文本串s里出现了模式串t

return (i - needle.length() + 1);

}

代码总览

public class KMP {

private void getNext(int[] next, String s) {

int j = -1;

next[0] = j;

for(int i = 1; i < s.length(); i++) { // 注意i从1开始

while (j >= 0 && s.charAt(i) != s.charAt(j + 1)) { // 前后缀不相同了

j = next[j]; // 向前回溯

}

if (s.charAt(i) == s.charAt(j + 1)) { // 找到相同的前后缀

j++;

}

next[i] = j; // 将j(前缀的长度)赋给next[i]

}

}

public int strStr(String haystack, String needle) {

if (needle.length() == 0) {

return 0;

}

int[] next = new int[needle.length()];

getNext(next, needle);

int j = -1; // // 因为next数组里记录的起始位置为-1

for (int i = 0; i < haystack.length(); i++) { // 注意i就从0开始

while(j >= 0 && haystack.charAt(i) != needle.charAt(j + 1)) { // 不匹配

j = next[j]; // j 寻找之前匹配的位置

}

if (haystack.charAt(i) == needle.charAt(j + 1)) { // 匹配,j和i同时向后移动

j++;

}

if (j == (needle.length() - 1) ) { // 文本串s里出现了模式串t

return (i - needle.length() + 1);

}

}

return -1;

}

}

测试代码

import static org.junit.Assert.*;

import org.junit.Test;

public class KMPTest {

@Test

public void test() {

KMP k = new KMP();

assertEquals(2, k.strStr(“hello”, “ll”));
自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数Java工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年Java开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上Java开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且会持续更新!

如果你觉得这些内容对你有帮助,可以扫码获取!!(备注Java获取)

img

感受:

其实我投简历的时候,都不太敢投递阿里。因为在阿里一面前已经过了字节的三次面试,投阿里的简历一直没被捞,所以以为简历就挂了。

特别感谢一面的面试官捞了我,给了我机会,同时也认可我的努力和态度。对比我的面经和其他大佬的面经,自己真的是运气好。别人8成实力,我可能8成运气。所以对我而言,我要继续加倍努力,弥补自己技术上的不足,以及与科班大佬们基础上的差距。希望自己能继续保持学习的热情,继续努力走下去。

也祝愿各位同学,都能找到自己心动的offer。

分享我在这次面试前所做的准备(刷题复习资料以及一些大佬们的学习笔记和学习路线),都已经整理成了电子文档

拿到字节跳动offer后,简历被阿里捞了起来,二面迎来了P9"盘问"

《一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码》点击传送门即可获取!
6.jpg" alt=“img” style=“zoom: 33%;” />

感受:

其实我投简历的时候,都不太敢投递阿里。因为在阿里一面前已经过了字节的三次面试,投阿里的简历一直没被捞,所以以为简历就挂了。

特别感谢一面的面试官捞了我,给了我机会,同时也认可我的努力和态度。对比我的面经和其他大佬的面经,自己真的是运气好。别人8成实力,我可能8成运气。所以对我而言,我要继续加倍努力,弥补自己技术上的不足,以及与科班大佬们基础上的差距。希望自己能继续保持学习的热情,继续努力走下去。

也祝愿各位同学,都能找到自己心动的offer。

分享我在这次面试前所做的准备(刷题复习资料以及一些大佬们的学习笔记和学习路线),都已经整理成了电子文档

[外链图片转存中…(img-jIK37MJZ-1711788387197)]

《一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码》点击传送门即可获取!

  • 19
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值