字符串的模式匹配
字符串的模式匹配是一种常用的运算。所谓模式匹配,可以简单地理解为在目标(字符串)中寻找一个给定的模式(也是字符串),返回目标和模式匹配的第一个子串的首字符位置。通常目标串比较大,而模式串则比较短小。
比如,原字符串为“ABCDEFG”,子串为“DEF”,则算法返回3。
模式匹配的类型
(1)精确匹配
如果在目标T中至少一处存在模式P,则称匹配成功,否则即使目标与模式只有一个字符不同也不能称为匹配成功,即匹配失败。给定一个字符或符号组成的字符串目标对象T和一个字符串模式P,模式匹配的目的是在目标T中搜索与模式P完全相同的子串,返回T和P匹配的第一个字符串的首字母位置
[3] 。
(2)近似匹配
如果模式P与目标T(或其子串)存在某种程度的相似,则认为匹配成功。常用的衡量字符串相似度的方法是根据一个串转换成另一个串所需的基本操作数目来确定。基本操作由字符串的插入、删除和替换来组成
常见的匹配算法:
一、BF算法
Brute-Force算法的设计思想
Brute-Force是普通的模式匹配算法。将主串S的第1个字符和模式T的第1个字符比较,若相等,继续逐个比较后续字符;若不等,从主串的下一字符起,重新与模式的第一个字符比较,直到主串的一个连续子串字符序列与模式相等,返回值为S中与T匹配的子序列第一个字符的序号,即匹配成功;否则,匹配失败,返回值 0。
Brute-Force算法的特点
每次遇到匹配不成功的情况,指针i都要移到本次匹配的开始位置的下一位,称这样的指针移动为回溯,指针的回溯越多,简单模式匹配的执行次数越多。
Brute-Force匹配算法的最坏时间复杂度为 O(n*m) 一般情况下BF算法的时间复杂度为O(n+m)
Brute-Force算法的实现
int BF(string target,string major)
{
int i=0,j=0,index=-1;
while (i < major.length() && j < target.length())
{
if (major.[i] == target[j])
{
i++; j++;
}
else // 使i回退到下一个字符,应为子串的前面j向可能匹配成功,而第j+1项失败,所以 i=i-j+1
{
i = i - j + 1;
j = 0;
}
}
if (j == sub.length())
{
index = i - sub.length();
}
else
{
index = -1;
}
return index;
}