文章目录
day09学习内容
day09主要内容
- kmp算法的理论基础
- 重复的子字符串
一、 大白话讲解kmp算法理论基础
声明
本文思路和文字,引用自《代码随想录》
1.1、kmp算法的作用
1、KMP的主要思想是当出现字符串不匹配时,可以知道一部分之前已经匹配的文本内容,可以利用这些信息避免从头再去做匹配了。
2、文本串和模式串
3、如何记录已经匹配的文本内容,是KMP的重点,也是next数组肩负的重任。
1.2、什么是前缀表
1、next数组就是一个前缀表。
2、缀表是用来回退的,它记录了模式串与主串(文本串)不匹配的时候,模式串应该从哪里开始重新匹配。
问:怎么跳过中间的aab直接匹配到了后面的aaf呢?
答:找到与其相等的后缀的前缀的后面第一个字母开始匹配。
3、前缀表的作用是当前位置匹配失败,找到之前已经匹配上的位置,再重新匹配。也就是说在某个字符失配时,前缀表会告诉你下一步匹配中,模式串应该跳到哪个位置。
4、总结:
前缀表就是记录下标i之前(包括i)的字符串中,有多大长度的相同前缀后缀。
1.3、什么是前缀?什么是后缀?
1、前缀:前缀是指不包含最后一个字符的所有以第一个字符开头的连续子串。
2、后缀:后缀是指不包含第一个字符的所有以最后一个字符结尾的连续子串。
举例:
1、aabaaf的前缀有哪些?
a
aa
aab
aaba
aabaa
以上五种都是前缀
2、aabaaf的后缀有哪些?
f
af
aaf
baaf
abaaf
以上五种都是后缀
1.4、什么是最长相等前后缀?以及如何计算前缀表
最长相等前后缀
1、a
没有前缀,也没有后缀也,最长相等前后缀=0
2、aa
前缀是a,后缀也是a,最长相等前后缀=1
3、aab
3.1、前缀是a,后缀是b,最长相等前后缀=0
3.2、前缀是aa,后缀也是ab,最长相等前后缀=0
所以最终最长相等前后缀是0
4、aaba
4.1、前缀是a,后缀是a,最长相等前后缀=1
4.2、前缀是aa,后缀也是ab,最长相等前后缀=0
4.3、前缀是aab,后缀也是aba,最长相等前后缀=0
所以最终最长相等前后缀是1
5、aabaa
5.1、前缀是a,后缀是a,最长相等前后缀=1
5.2、前缀是aa,后缀是aa,最长相等前后缀=2
5.3、前缀是aab,后缀是baa,最长相等前后缀=0
5.4、前缀是aaba,后缀是abaa,最长相等前后缀=0
所以最终最长相等前后缀是2
6、aabaaf
6.1、前缀是a,后缀是f,最长相等前后缀=0
6.2、前缀是aa,后缀是af,最长相等前后缀=0
6.3、前缀是aab,后缀是aaf,最长相等前后缀=0
6.4、前缀是aaba,后缀是baaf,最长相等前后缀=0
6.5、前缀是aabaa,后缀是abaaf,最长相等前后缀=0
所以最终最长相等前后缀是0
综上,得到的010120就是前缀表
画个图理解一下
1.4.1、结论:计算前缀表就是推断模式串最长相等前后缀的过程
具体可以看上面的分析
1.5、使用前缀表匹配的过程?
为什么直接跳到了2的位置,直接从下标2的位置开始重新匹配呢?
因为前缀表最大数字是2,也就是说模式串最长相等前后缀是2,所以跳到下标2的位置重新开始匹配。
那么继续推论,
从冲突的位置前一位开始,前缀表最大数字是i,也就是说模式串最长相等前后缀是i,所以跳到下标i的位置重新开始匹配。
1.6、next数组?
可以理解为next数组=前缀表。
遇见了next数组要向前回退
。
1.7、初始右移?初始减一?
1.7.1初始减1
就是下标从-1开始,要么就是前缀表整体右移一位,没啥好说的
减1之后还要加回来,后面写代码再看吧。
1.7.2初始右移
就是把整个前缀表往右移动
1.7.3 右移和减1两种写法的区别
初始右移:
用f对应位置的数字跳转,直接跳转到对应下标
初始减1:
用f对应前一位置的数字跳转,直接跳转到对应下标。最后还要加回去1哈
。
f是冲突的位置
二、KMP算法代码篇
后面补充
三、重复的子字符串
略
总结
1.感想
- kmp有点难,先这样吧。二刷再来写。
2.思维导图
本文思路引用自代码随想录,感谢代码随想录作者。