题目
给定字符串P和T,要求从T中找出与P相同的所有子串,并返回子串位置。
输入
str strsstrstrl
输出
1 5 8
分析
这其实是字符串模式匹配的问题。简单科普一下,模式匹配又可分为单模式匹配和多模式匹配,单模式匹配,即只有一个模式串;多模式匹配,即有k个模式串。常见的单模式匹配的算法有BF算法、KMP算法、BM算法等等。常见的多模式匹配算法有Trie树,AC自动机,WM算法, 后缀树等等。
这里给出BF算法(也称暴力法、朴素法)和KMP算法
BF算法
从目标串的的第一个字符起与模式串的第一个字符比较,若相等,则继续对字符进行后续的比较,否则目标串从第二个字符起与模式串的第一个字符重新比较,直至模式串中的每个字符依次和目标串中的一个连续的字符序列相等为止,此时称为匹配成功,否则匹配失败。
若模式串P的长度是m,目标串T的长度是n,这时最坏的情况是每遍比较都在最后出现不等,即每遍最多比较m次,最多比较n-m+1遍,总的比较次数最多为m(n-m+1),因此BF算法的时间复杂度为O(mn)。
KMP算法
首先要用的一个覆盖函数overlay,表示模式串P从左开始的所有连续子串的自我覆盖程度。
什么是覆盖程度?
对于序列a[0]a[1]…a[j-1]a[j]
找到一个最大k,满足
a[0]a[1]…a[k-1]a[k] = a[j-k]a[j-k+1]…a[j-1]a[j]
这个k值就是覆盖程度。
比如,字符串abaabcaba
子串 | 覆盖度 |
---|---|
a | 0 |
ab | 0 |