串匹配问题
给定两个字符串S和T,在主串S中查找子串T的过程称之为串匹配(模式匹配),T称之为模式。这样一类的问题在实践中应用非常广泛。在文本处理系统、操作系统、编译系统、数据库系统以及Internet信息检索系统中,串匹配都是使用最频繁的操作。
一般来说,串匹配问题具有以下的特征:
- 问题输入规模很大,常常要在大量信息中进行匹配。因此,算法执行依次的时间也不可忽视
- 匹配操作经常被调用,执行频率很高,因此,算法改进的累积效益往往比表面看起来要高
解决串匹配问题可以使用蛮力法或者KMP模式匹配。
首先介绍一下BF算法(朴素的模式匹配算法):
从主串的S的第一个字符开始和模式T的第一个字符进行比较,若相等,则继续比较二者的后序字符;若不相等,则从主串S的第二个字符开始和模式T的第一个字符进行比较,重复上述过程,若T中的字符全部比较完毕,则说明本趟匹配成功;若S中的字符全部比较完毕,则匹配失败。这个算法称之为BF算法。
BF算法的基本思想如上图。
设有主串S=“abcabcacb”,模式T=“abcac”,则其匹配执行过程如下:
上述BF算法可描述为以下伪代码:
输入:主串S,模式T
输出:T在S中的位置
1. 初始化主串开始比较位置index=0
2. 在串S和串T中设置比较的起始下标i=0,j=0
3. 重复以下操作:直到其中一个串比较完毕
if S[i]==T[j]
i++;j++
else
index++;
i=index;j=0
4. 如果T中所有字符均比较完毕,则返回匹配的开始位置,否则返回0
其算法用C++语言描述如下:
int BF(char S[],char T[]){
int index=0; //主串从下标0开始第一趟匹配
int i=0,j=0; //设置比较的起始下标
while((S[i]!='\0'