相信很多人(包括自己)初识KMP算法的时候始终是丈二和尚摸不着头脑,要么完全不知所云,要么看不懂书上的解释,要么自己觉得好像心里了解KMP算法的意思,却说不出个究竟,所谓知其然不知其所以然是也。
经过七八个小时地仔细研究,终于感觉自己能说出其所以然了,又觉得数据结构书上写得过于简洁,不易于初学者接受,于是决定把自己的理解拿出来与大家分享,希望能抛砖引玉,这便是Bill写这篇文章想要得到的最好结果了
-----------------------------------谨以此文,献给刚接触KMP算法的朋友,定有不足之处,望大家指正----------------------------------------
【KMP算法简介】
KMP算法是一种改进后的字符串匹配算法,由D.E.Knuth与V.R.Pratt和J.H.Morris同时发现,因此人们称它为克努特——莫里斯——普拉特操作(简称KMP算法)。通过一个辅助函数实现跳过扫描不必要的目标串字符,以达到优化效果。
【传统字符串匹配算法的缺憾】
Bill认为,对于一种优化的算法,既要知道优化的细节,也更应该了解它的前身(至于KMP是否基于传统算法,我不清楚,这里只作语境上的前身),了解是什么原因导致了人们要去优化它,因此加入了这一段:
请看以下传统字符串匹配的代码:
C++ code
【代码思想】
传统匹配思想是,从目标串Target的第一个字符开始扫描,逐一与模式串的对应字符进行匹配,若该组字符匹配,则检测下一组字符,如遇失配,则退回到Target的第二个字符,重复上述步骤,直到整个Pattern在Target中找到匹配,或者已经扫描完整个目标串也没能够完成匹配为止。
这样的算法理解起来很简单,实现起来也容易,但是其中包含了过多不必要的操作,也就是在目标串中,有些字符是可以直接跳过,不必检测的。
不妨假设我们的目标串
Target = "a b c d e a b c d e a b c d f"
需要匹配的模式串
Pattern = "c d f";
那么当匹配到如下情况时