从现在起,这个博客不再是单纯的为了记录刷题的数量,开始侧重于文章的质量,希望能尽量多的反映我自己思维的结果。
以kmp算法为起点,继续学习其他模式匹配算法。
其实我倒觉得,kmp算法的难度被很多人夸大了,包括我的数据结构老师。个人觉得严蔚敏的c语言版数据结构讲的kmp还是很不错的,就是数组下标从1开始让我在理解的时候老是搞混。
首先看看最原始的模式匹配算法对于以下主串及模式串是怎样运行的:
原始的算法从最开始进行匹配,当发现不能匹配的字符时,就回退主串的指针,指向最开始匹配的字符的下一个字符,同时模式串的指针也要回到最开始,重新开始匹配。
原始方法的低效率,其实就是因为有很多已经获得的信息被浪费掉了,比如上图中在第三个字符位置失配,主串的指针要退回到第二个字符,模式串指针回退到第一个字符再重新开始比较。而实际上,在第一遍比较的时候,已经知道了模式串中的前两个字符和主串中的前两个字符相同,但这些有用而又宝贵的信息被直接丢弃了。因此,kmp算法的首要任务,就是尽可能高效的利用这些被丢弃掉得信息。
这里就不得不佩服发明kmp的三位计算机科学家了,想到了这样好的一个方法。
具体说来就是,当失配发生时,并不移动主串的指针,而是利用之前比较得到的信息,尽量向右移动模式串的指针。在这里先不要思考究竟为什么,先看下面的演示:
主串:abccabsdf
模式:abccabc