代码随想录算法训练营 DAY9 | 被KMP击碎的一天总结回顾字符串和双指针

林酽

已于 2024-03-15 19:18:32 修改

阅读量917

点赞数 29

文章标签：算法

于 2024-03-14 22:38:51 首次发布

本文链接：https://blog.csdn.net/qq_35904005/article/details/136724089

版权

KMP算法

KMP的经典思想就是:当出现字符串不匹配时，可以记录一部分之前已经匹配的文本内容，利用这些信息避免从头再去做匹配。

暴力BF法

暴力就是两层for循环，遍历文本串和模式串，不匹配就一起往后移动一个。这样是O(m*n) 就是两个串的长度。

怎么更新i？i=i-j+1

找到了以后怎么返回开始位置的下标？return i-j

如果i走完了，说明没有这个子串。

KMP有什么用？

主要应用在字符串匹配上。KMP重点在于如何如何记录已经匹配的文本内容：next数组

如果用KMP，模式串不匹配的话会跳到之前匹配过的内容。

KMP和BF唯一不一样的地方在于，主串的指针并不会回退，子串指针也不会移动到起始位置。

什么是前缀表

next数组就是一个前缀表（prefix table）。

前缀表有什么作用呢？

前缀表是用来回退的，它记录了模式串与主串(文本串)不匹配的时候，模式串应该从哪里开始重新匹配。

举一个例子：

要在文本串：aabaabaafa 中查找是否出现过一个模式串：aabaaf。

在这里插入图片描述

可以看出，文本串中第六个字符b 和模式串的第六个字符f，不匹配了。如果暴力匹配，发现不匹配，此时就要从头匹配了。

但如果使用前缀表，就不会从头匹配，而是从上次已经匹配的内容开始匹配，找到了模式串中第三个字符b继续开始匹配。

为啥能移动到b？

你已经知道了f前面的字符都匹配上了。那么文本串不会从第二个a开始，而是可以直接从当前的b开始

前缀表是怎么记录的？

意味着在某个字符失配时，前缀表会告诉你下一步匹配中，模式串应该跳到哪个位置。

前缀表：记录下标i之前（包括i）的字符串中，有多大长度的相同前缀后缀。

最长相等前后缀

前缀是指不包含最后一个字符的所有以第一个字符开头的连续子串。

后缀是指不包含第一个字符的所有以最后一个字符结尾的连续子串。

接下来举例看看最长相等前后缀：

a 前缀：无后缀：无最长相等前后缀长度：0

aa 前缀：a 后缀：a 最长相等前后缀长度：1

aab 前缀：a aa 后缀：b ab 长度：0

aaba 前缀：a aa aab 后缀：a ba aba 长度：1

aabaa 前缀：a aa aab aaba 后缀：a aa baa abaa 长度：2

aabaaf 前缀：a aa aab aaba aabaa 后缀：f af aaf baaf abaaf 长度：0

因此模式串的前缀表就是：[0,1,0,1,2,0]

使用next数组来匹配

为什么叫next数组？表示下个匹配的位置要从哪里开始。

文本串：aabaabaafa

模式串：aabaaf

遍历到b f不匹配了之后，我们找这个位置的前面的子串的最长相等前后缀是多少。—就记录在前缀表里next[4]=2。这个2意味着，前面也有一个与其相等的前缀aa。我们在这个后缀的后面不匹配了，就要找与其相等的前缀的后面继续开始匹配。

那这个位置的下标是多少呢？==这个位置的下标就是aabaa它的最长相等前后缀的长度 2 ！！！==也就是重新从b开始继续匹配。

使用前缀表后 时间复杂度变成了O(n+m)。

next数组不同的处理

有的叫next数组，有的叫prefix
有的会对next数组进行一些处理，例如：
- 整体右移一位，左边补-1：[0,1,0,1,2,0]—>[-1,-1,0,1,0,1,2]
  
  这样遇到冲突，直接取冲突位上对应的值了，不再取前一位
- 整体-1：[0,1,0,1,2,0]—>[-1,0,-1,0,1,-1]
  
  减一是为了优化next数组，在不右移的情况下如果0号位值为0，得写额外判断条件，不然原地打转

不同的处理只是代表了遇见冲突时找跳转位置的方式不一样。

求next数组代码思路

在这里插入图片描述

getNext() 具体实现

构造next数组其实就是计算模式串s，前缀表的过程。

void getNext(next, s)。要传入next数组和模式串s，在函数内部给next数组赋值。

一共四步走：

初始化
处理前后缀不同的情况
处理前后缀相同的情况
更新next数组的值

初始化：

涉及到指针i和指针j。j指向待匹配的前缀末尾位置，i指向待匹配的后缀末尾位置

前缀和后缀的末尾代表的就是字面意思，只不过是需要遍历模式串，而不是一下子计算整个最长的模式串的最长相等前后缀长度，肯定是先从模式串长度为1开始计算（初始化）。

j指向前缀末尾位置，所以j还代表着 i之前（包括i）子串的最长相等前后缀的长度。

因为next[]实际上就是存了最长相等前后缀的长度

j初始化成0（因为前缀是从0开始的）
next[0]=0。因为如果是只有一个字符的字符串，相同前后缀的最大长度是0
for循环遍历i，i从1开始（i对应的是后缀的末尾，因为后缀不包含首部字母的，所以i要从1开始）

for(i = 1; i < s.length(); i++)

处理前后缀不相同的情况：

遇见冲突就看前一位next数组的值，j跳到这里。j = next[j-1]再进行匹配，这个是一个持续往回跳匹配的过程，所以是while循环。回退到什么时候结束？j=0的时候

while(j>0 && next[i] != next[j])

处理相同的情况：

j++; next[i] = j;

取前一位的next数组值的含义是取前面子串的最大公共前后缀。

private void getNext(int[] next, String s) {
        int j = 0;
        next[0] = 0;
        for (int i = 1; i < s.length(); i++) {
            while (j > 0 && s.charAt(j) != s.charAt(i)) 
                j = next[j - 1];
            if (s.charAt(j) == s.charAt(i)) 
                j++;
            next[i] = j; 
        }
    }

求next数组之前，以及怎么使用都能明白，但是求next还是云里雾里，决定先放一放把。

总结双指针

在344.反转字符串，我们使用双指针法实现了反转字符串的操作，双指针法在数组，链表和字符串中很常用。

接着在字符串：替换空格，同样还是使用双指针法在时间复杂度O(n)的情况下完成替换空格。

其实很多数组填充类的问题，都可以先预先给数组扩容带填充后的大小，然后在从后向前进行操作。

那么针对数组删除操作的问题，其实在27. 移除元素中就已经提到了使用双指针法进行移除操作。

同样的道理在151.翻转字符串里的单词中我们使用O(n)的时间复杂度，完成了删除冗余空格。

一些同学会使用for循环里调用库函数erase来移除元素，这其实是O(n^2)的操作，因为erase就是O(n)的操作，所以这也是典型的不知道库函数的时间复杂度，上来就用的案例了。

反转链表是重点

用双指针法来翻转链表，只需要改变链表的next指针的指向，直接将链表反转，而不用重新定义一个新的链表。

在链表中求环，应该是双指针在链表里最经典的应用

使用快慢指针（双指针法），分别定义 fast 和 slow指针，从头结点出发，fast指针每次移动两个节点，slow指针每次移动一个节点，如果 fast 和 slow指针在途中相遇，说明这个链表有环。

林酽

关注

29
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
代码随想录算法训练营 DAY9 | 被KMP击碎的一天总结回顾字符串和双指针

next数组就是一个前缀表（prefix table）。前缀表有什么作用呢？前缀表是用来回退的，它记录了模式串与主串(文本串)不匹配的时候，模式串应该从哪里开始重新匹配。举一个例子：要在文本串：aabaabaafa 中查找是否出现过一个模式串：aabaaf。可以看出，文本串中第六个字符b 和模式串的第六个字符f，不匹配了。如果暴力匹配，发现不匹配，此时就要从头匹配了。但如果使用前缀表，就不会从头匹配，而是从上次已经匹配的内容开始匹配，找到了模式串中第三个字符b继续开始匹配。为啥能移动到b？
复制链接

扫一扫