【 这个冬季,不太冷 】
子串的定位运算称为串的模拟匹配 / 串匹配。
( 在搜索引擎、拼写检查、语言翻译、数据压缩等应用中,都需要进行串匹配 )
- 串的模式匹配设有两个字符串 S 和 T ,设 S 为主串,也称正文串;设 T 为子串,也称为模式。在主串 S 中查找与模式 T 相匹配的子串,如果匹配成功,确定相匹配的子串中的第一个字符在主串 S 中出现的位置。
BF算法
BF算法即暴风算法,是最简单直观的模拟匹配算法
模式匹配不一定是从主串的第一个位置开始,可以指定主串中查找的起始位置 pos
。
BF算法思路直观简洁,但当匹配失败时,主串的指针 i 总是回溯到 i-j+2 位置,模拟串的指针总是恢复到首字符位置 j=1 ,所以其时间复杂度高。
算法步骤
(1)分别利用计数指针 i 和 j 指示主串 S 和模式 T 中当前正待比较的字符位置,i 初值为 pos ,j 初值为 1
(2)如果两个串均未比较到串尾,即 i 和 j 均分别小于等于 S 和 T 的长度时,则循环执行如下操作:
- S.ch[i] 和 T.ch[j] 比较,若相等,则 i 和 j 分别指示串中下个位置,继续比较后续字符
- 若不等,指针后退重新开始匹配,从主串的下一个字符( i = i - j + 2 )起再重新和模式的第一个字符( j = 1 )比较
(3)如果 j > T.length ,说明模式 T 中的每个字符依次和主串 S 中的一个连续的字符序列相等,则匹配成功,返回和模式 T 中第一个字符相等的字符相等的字符在主串 S 中的序号
( i - T.length );否则称匹配不成功,返回 0
码上
int Index_BF (SString S,SString T,int pos)
{ //返回模式 T 在主串 S 中第 pos 个字符开始第一次出现的位置。若不存在,则返回值为 0
//其中, T 非空, 1<=pos<=S.length
i=pos;j=1; //初始化
while ( i<=S.length && j<=T.length ) //两个串均未比较到串尾
[
if ( S.ch[i] == T.ch[j] ){++i;++j} //继续比较后续字符
else { i=i-j+2 ;j=1;} //指针后退重新开始匹配
}
if( j>T>length ) return i-T.length; //匹配成功
else return 0; //匹配失败
}
- 字符串后移位数 = 失配字符位置 - 失配字符上一次出现的位置
匹配过程
算法分析
在匹配成功的情况下,考虑两种极端情况:
(1)最好情况下,每趟不成功的匹配都发生在模拟串的第一个字符与主串中相应字符的比较。
例:
S=“aaaaaba”
T=“ba”
设主串的长度为 n ,子串的长度为 m,假设从主串的第 i 个位置开始与模拟串匹配成功,则在前 i-1 趟匹配中字符总共比较了 i-1 次;若第 i 趟成功的字符比较次数为 m , 则总比较次数为 i-1+m 。对于匹配成功的主串,其起始位置由 1 到 n-m+1 ,假定这 n-m+1 个起始位置上的匹配成功概率相等,则最好情况下匹配成功的平均比较次数为 (n+m)/2
- 最好情况下的平均时间复杂度为 O(n+m)
(2)最坏情况下,每趟不成功的匹配都发生在模拟串的最后一个字符与主串中相应字符的比较。
例:
S=“aaaaab”
T=“aab”
假设从主串的第 i 个位置开始与模拟串匹配成功,则在前 i-1趟匹配中字符总共比较了 (i-1)*m 次;若第 i 趟成功的字符比较次数为 m ,则总比较次数 i*m 。 所以最坏情况下匹配成功的平均比较次数为 m*(n-m+2)/2
- 最坏情况下的平均时间复杂度为O(n*m)