字符串匹配算法
主要根据《算法导论》总结了以下几种字符串匹配算法
- 朴素字符串匹配算法
- KMP算法
- Rabin-Karp算法
有限状态自动机
A. 朴素字符串匹配算法
文本串是T[1…n],模式串是P[1…m],其中 m≤n ,s为有效偏移量。
通过一个循环找到所有有效偏移,并对n-m+1个可能的s值进行检测( 0≤s≤n−m ),看是否满足条件P[1…m]=T[s+1…s+m]NAIVE-STRING-MATCHER(T,P) pseudocode
1 n=T.length
2 m=P.length
3 for s=0 to s=n-m
4 if P[1...m]=T[s+1...s+m]
5 printf "patterns occur with shift" s
说明:
第3-5的for循环考察每一个可能的偏移,第4行用于确定当前偏移是否有效,隐藏了一个循环,用于逐个监测对应位置上的字符。
算法复杂度分析:
最坏情况下,朴素匹配算法运行时间为 Θ((n−m+1)m) ,由于不需要预处理,朴素字符串匹配算法运行时间即为其匹配时间。
相较于KMP算法,朴素算法的效率不高,因为即使有无效偏移存在时,它也只关心一个有效偏移,而完全忽略了检测无效s值时获得的文本信息。
B. KMP算法
*KMP算法思路:
KMP算法思路
英文参考资料Posted by Jake Boxer
算法思路已经很清晰地在这两份资料中展现了,下面一个问题是next数组以及nextval数组。
next[j]=k:
k是模式中第j个字符与文本中相应的字符“失配”时,在模式中重新和主串中该字符进行比较的字符的位置。
nextval[j]:
nextval[1]=0, 看第j字符和第next[j]字符是否相等,若相等,则nextval[j]=nextval[next[j]];若不等,则nextval[j]=next[j]
说明:在我的版本中j是从1开始的,有些资料是从0开始的。