这篇文章来说说如何简单理解KMP,BM算法。之前看过一些文章说,KMP算法很难理解。 可我并不觉得。 我反而觉得它容易理解。平时我们写java代码的时候, 判断一个字符串是否存在包含另一个字符串都是直接 string.contains(str), 可你知道它是实现的么? 不妨亲自去看看它是如何实现的?
看此文章之前,严重建议先去看看阮一峰老师写的的KMP算法文章。如果那篇文章都可以完全理解了,那么就没必要看这篇文章浪费时间了。
字符串匹配在平时开发中还是很常用的,只不过我们一般都是调用jdk提供的方法直接使用。
下面以这个为例子,来描述KMP算法原理。
在字符串"BBCABCDABABCDABCDABDE",判断里面是否包含另一个字符串"ABCDABD"?
在字符串匹配算法中,我们除了可以逐一匹配之外,别无它法。包括KMP,BM算法也是逐一匹配的,只不过是KMP,BM算法用了很多讨巧的方式提高了匹配效率。
首先先来看看暴力匹配,暴力匹配就是逐一匹配,当匹配失败后,子串往后移动一个字符。主串中的“B”,与子串中的“A”不匹配,子串往后移动一个字符
然后继续往后匹配。匹配失败就往后一个字符。
当子串中的前6个字符匹配上了,但最后一个字符匹配失败,子串又只能往后移动一个字符,有点可惜。
一直到主串中的“ABCDABD”与子串完全匹配,那么就匹配成功。
这种暴力匹配的效率太低了,因为不管你前面匹配成功时,到后面字符一旦匹配失败时,那么前面匹配的成功的,又得重新匹配一遍。
下面我们来假设一种情况(当然这种假设情况是错误的),只要匹配失败,那么移动我们匹配上的字符数量,看看会发现什么情况?
举例:子串“ABCDABD”,当匹配到“ABCD”完成时,匹配“A”失败,那么后面移动4个字符。匹配失败,移动一个字符子串匹配到后一个“D”时,匹配失败,移动6个字符
根据前面的假设,字符所有的字符都匹配过了,那么就可以移动6个字符。根据上图移动6个字符之后的效果
匹配失败,移动一个字符。
当子串匹配到后一个“D”时,又匹配失败,往后移动6个字符。最后错过想要匹配的字符串。
这种假设,有个很明显的问题,就是尺度大了。错过了我们想要匹配的字符串。
其实我们思路已经对了一半了,这时应该反思错在哪了?
以这种情况为例, 按照假设就是直接移动6个字符。但是子串前缀“AB”是在后面有出现的。
正确的话,是应该移动到后面的AB那里,继续开始匹配。根据上图匹配失败之后,正确的移动字符数
是的。KMP算法就是可以按照这种思路理解的。一般情况下,当已经匹配过子串中,前面的子串中的字符串在后续没有出现,那么就可以移动所有匹配过的字符串。
如果前面的子串中的字符串在后续中有出现,那么移动到字符出现到后续出现那里。
再举个例子。
ABCDABDCA 这个子串中,当匹配到第2个“A”失败时,子串前面匹配过的“ABCD”的前缀和前中缀,都不会在中后缀,后缀中出现,那么就可以直接移动4个字符。
ABCDABDCA 这个子串中,当匹配到第2个“D”失败时,子串前面匹配过的“ABCDAB”的前缀,“AB”是后缀中出现了,那么就只能移到“AB”那里了,即 6 - 2 = 4,移动4个字符。
简单理解就是: 先把匹配过的字符直接移动过去,看看会不会错过什么。 如果不会,那么就确认移动。 如果会,那么回退到目标位置。
根据KMP算法的部分匹配值,可以计算出目标位置的值。
由于阮一峰老师关于部分匹配值和KMP算法总结太棒了,所以有关部分匹配值的概念,怎么计算,就参考阮一峰老师文章吧。
最后来说说,java里面, String.contains方法实现。
java中的String.contains也是使用暴力匹配的方式,没有使用KMP,BM之类的算法。
至于为什么,这个就发散一下,留给自己思考吧。
最后的最后,既然提到了KMP算法,另一个也很常用,且一般情况下效率更高的BM算法,就留给你自己看吧,兴许下一篇文章就是说说BM算法。
以上, good night.