c++ kmp算法字符匹配_如何简单理解字符串匹配算法?

这篇文章来说说如何简单理解KMP,BM算法。之前看过一些文章说,KMP算法很难理解。 可我并不觉得。 我反而觉得它容易理解。

平时我们写java代码的时候, 判断一个字符串是否存在包含另一个字符串都是直接 string.contains(str), 可你知道它是实现的么? 不妨亲自去看看它是如何实现的?
看此文章之前,严重建议先去看看阮一峰老师写的的KMP算法文章。如果那篇文章都可以完全理解了,那么就没必要看这篇文章浪费时间了。

字符串匹配在平时开发中还是很常用的,只不过我们一般都是调用jdk提供的方法直接使用。

下面以这个为例子,来描述KMP算法原理。

在字符串"BBCABCDABABCDABCDABDE",判断里面是否包含另一个字符串"ABCDABD"?

在字符串匹配算法中,我们除了可以逐一匹配之外,别无它法。包括KMP,BM算法也是逐一匹配的,只不过是KMP,BM算法用了很多讨巧的方式提高了匹配效率。

首先先来看看暴力匹配,暴力匹配就是逐一匹配,当匹配失败后,子串往后移动一个字符。

74f7ef980b7badba83f87c6fa2c0eafc.png
主串中的“B”,与子串中的“A”不匹配,子串往后移动一个字符

然后继续往后匹配。匹配失败就往后一个字符。

3d670ff4ac9473cdb36e7560bc445d02.png

当子串中的前6个字符匹配上了,但最后一个字符匹配失败,子串又只能往后移动一个字符,有点可惜。

一直到主串中的“ABCDABD”与子串完全匹配,那么就匹配成功。

5c7307f1a3d5f0dff1b152c370c67bcc.png

这种暴力匹配的效率太低了,因为不管你前面匹配成功时,到后面字符一旦匹配失败时,那么前面匹配的成功的,又得重新匹配一遍。


下面我们来假设一种情况(当然这种假设情况是错误的),只要匹配失败,那么移动我们匹配上的字符数量,看看会发现什么情况?

举例:子串“ABCDABD”,当匹配到“ABCD”完成时,匹配“A”失败,那么后面移动4个字符。

28393b62ac19983ff8bdc26fdba5c8b6.png
匹配失败,移动一个字符

99d7317cb0a5c837f5baf558a58d6a5f.png
子串匹配到后一个“D”时,匹配失败,移动6个字符

根据前面的假设,字符所有的字符都匹配过了,那么就可以移动6个字符。

d6efad967ad59a6544d91133889aac06.png
根据上图移动6个字符之后的效果

匹配失败,移动一个字符。

332c7a2df88763e59b4d3a1c54e3219c.png

当子串匹配到后一个“D”时,又匹配失败,往后移动6个字符。

63555a628aef750651ed61a09e1e08cf.png
最后错过想要匹配的字符串。

这种假设,有个很明显的问题,就是尺度大了。错过了我们想要匹配的字符串。

其实我们思路已经对了一半了,这时应该反思错在哪了?

3603e3c942b3715e8ea66cd82092226b.png

以这种情况为例, 按照假设就是直接移动6个字符。但是子串前缀“AB”是在后面有出现的。

正确的话,是应该移动到后面的AB那里,继续开始匹配。

0bad03d1bd988f1dc66d17321179980d.png
根据上图匹配失败之后,正确的移动字符数

是的。KMP算法就是可以按照这种思路理解的。一般情况下,当已经匹配过子串中,前面的子串中的字符串在后续没有出现,那么就可以移动所有匹配过的字符串。

如果前面的子串中的字符串在后续中有出现,那么移动到字符出现到后续出现那里。

再举个例子。

ABCDABDCA 这个子串中,当匹配到第2个“A”失败时,子串前面匹配过的“ABCD”的前缀和前中缀,都不会在中后缀,后缀中出现,那么就可以直接移动4个字符。

ABCDABDCA 这个子串中,当匹配到第2个“D”失败时,子串前面匹配过的“ABCDAB”的前缀,“AB”是后缀中出现了,那么就只能移到“AB”那里了,即 6 - 2 = 4,移动4个字符。

简单理解就是: 先把匹配过的字符直接移动过去,看看会不会错过什么。 如果不会,那么就确认移动。 如果会,那么回退到目标位置。

根据KMP算法的部分匹配值,可以计算出目标位置的值。

由于阮一峰老师关于部分匹配值和KMP算法总结太棒了,所以有关部分匹配值的概念,怎么计算,就参考阮一峰老师文章吧。


最后来说说,java里面, String.contains方法实现。

java中的String.contains也是使用暴力匹配的方式,没有使用KMP,BM之类的算法。

至于为什么,这个就发散一下,留给自己思考吧。

最后的最后,既然提到了KMP算法,另一个也很常用,且一般情况下效率更高的BM算法,就留给你自己看吧,兴许下一篇文章就是说说BM算法。

以上, good night.

参考文章: 字符串匹配的KMP算法 - 阮一峰的网络日志

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值