1. KMP算法基本思想
问题:在字符串ABABABACA中寻找字符串ABABACA,并返回第一次出现的位置。
下面分析匹配过程
ABABABACA
ABABACA
|此处出现不匹配
若此时按照朴素字符串匹配算法进行匹配,模式字符串在不匹配的时候右移一位,重新从第一个字符进行匹配,情况如下
ABABABACA
ABABACA
|右移一位,重新从第一个字符进行匹配,很明显不匹配,无效偏移
ABABABACA
ABABACA
|再次右移一位,重新从第一个字符进行匹配,一直到模式串末尾,匹配成功
能否避免无效偏移和每次都从头开始匹配?这就是KMP算法所实现的。
ABABABACA
ABABACA
|此处出现不匹配,将该位置记为pos
ABABABACA
ABABACA
|直接偏移2位
|发现在上次出现不匹配的位置pos之前的3个字符ABA是匹配的,那么就不需要从模式串头开始匹配,直接从pos处进行匹配
问题:ABABA和ABA是什么关系?怎么知道可以直接偏移2位?
ABA为字符串ABABA的前缀和后缀的最长的共有字符串。
ABABA的前缀字符串(不包括尾字符)有A AB ABA ABAB
ABABA的后缀字符串(不包括头字符)有A BA ABA BABA
所以ABABA的前缀和后缀的最长的共有字符串为ABA,长度为3
移动位数 = 已匹配的字符数 - 对应的部分匹配值
上述例子中,已匹配=5,部分匹配=3,所以移动位数=2
倘若算出每个位置的部分匹配值,就可以直接得到应该移动的位数,从而避免无效移位,这个要求的部分匹配值被称为部分匹配表(Partial Match Table)。
2. 如何求部分匹配表(next数组)?
next数组的前两个元素为-1,0
A B A B A C A
-1 0
求next[pos]要根据next[pos - 1]的值。
1. 当pos - 1处的字符与next[pos - 1]即cnd处字符相同时
如下图所示,浅蓝色是子串P[0..pos - 2]的最长前缀后缀公共字符串,并且两个深蓝色处字符相同,那么子串P[0..pos - 1]的最长前缀后缀公共字符串长度为next[pos - 1] + 1,即cnd + 1。