字符串的匹配,即在一个字符串中查找另一个字符串。
例如在字符串 BBC ABCDAB ABCDABCDABDE 中查找字符串 ABCDABD, // BBC ABCDAB ABCDABCDABDE为主串, ABCDABD为模式串
首先,在主串的 第一个字符 开始搜索模式串 第一个字符 ,进行比较。因为B与A不匹配,所以搜索词后移一位。
后移仍旧不匹配,一直后移到匹配为止,如下图位置
接着比较后一位的对应字符,还是相等,接着后移,直到对应位置字符不相等为止,如下图位置
那么重点来了,,这是我们首先想到的是将模式串整个后移一位,然后从头开始匹配,虽然这样做是正确的,但是效率很差,因为要把搜索位置移到已经比较过的位置重新比较,如下图位置
其实,当空格与D不匹配时,我们已经知道前面六个字符是"ABCDAB"。KMP算法的想法是,设法利用这个已知信息,不要把"搜索位置"移回已经比较过的位置,继续把它尽量向后移,这样就提高了效率。具体移动的位数依据部分匹配值,如下图。 //部分匹配值计算的具体过程最后给出。
公式 : 移动步数 = 已匹配的数目 --- 字母对应的部分匹配值
已知空格与D不匹配时,前面六个字符"ABCDAB"是匹配的。查表可知,最后一个匹配字符B对应的"部分匹配值"为2,因此按照下面的公式算出向后移动的位数,6-2 = 4,所以搜索词后移4位,得下图
此时AB匹配正确,c与空格不匹配,此时移动2-0= 2步,得到下图
匹配不正确,再后移一位,如图
此时,最后一位匹配不正确,移动步数 6-2 = 4,得图
此时模式串匹配全部正确,如果想继续查找有没有其他匹配,则继续移动步数 7-0 = 7;
部分匹配值得计算方法:
首先,要了解两个概念:"前缀"和"后缀"。 "前缀"指除了最后一个字符以外,一个字符串的全部头部组合;"后缀"指除了第一个字符以外,一个字符串的全部尾部组合。
abcd 前缀:a,ab,abc; 后缀:d,cd,bcd;
- "A"的前缀和后缀都为空集,共有元素的长度为0;
- "AB"的前缀为[A],后缀为[B],共有元素的长度为0;
- "ABC"的前缀为[A, AB],后缀为[BC, C],共有元素的长度0;
- "ABCD"的前缀为[A, AB, ABC],后缀为[BCD, CD, D],共有元素的长度为0;
- "ABCDA"的前缀为[A, AB, ABC, ABCD],后缀为[BCDA, CDA, DA, A],共有元素为"A",长度为1;
- "ABCDAB"的前缀为[A, AB, ABC, ABCD, ABCDA],后缀为[BCDAB, CDAB, DAB, AB, B],共有元素为"AB",长度为2;
- "ABCDABD"的前缀为[A, AB, ABC, ABCD, ABCDA, ABCDAB],后缀为[BCDABD, CDABD, DABD, ABD, BD, D],共有元素的长度为0。
由此得部分匹配值,因为匹配值与主串无关,所以可以根据部分匹配值计算出要移动的步数。
"部分匹配"的实质是,有时候,字符串头部和尾部会有重复。比如,"ABCDAB"之中有两个"AB",那么它的"部分匹配值"就是2("AB"的长度)。搜索词移动的时候,第一个"AB"向后移动4位(字符串长度-部分匹配值),就可以来到第二个"AB"的位置。由此来提高效率