目录
1、串的定义
串(String)---零个或多个任意字符组成的有限序列
子串:一个串中任意字符组成的子序列(含空串)称为该串的子串
真子串:不包含本身的所有子串
字符位置:字符在序列中的序号为该字符在串中的位置
子串位置:子串第一个字符在主串中的位置
空格串:由一个或多个空格组成的字符串,与空串不同
串相等:当且仅当两个串的长度相等,并且各个对应位置上的字符都相等时,这两个串才是相等的(所有的空串是相等的)
2、串的匹配模式
1)算法目的
确定主串中所含子串(模式串)第一次出现的位置(定位)
2)算法应用
搜索引擎、拼写检查、语言翻译、数据压缩
3)算法种类
BF算法(Brute-Force)
KMP算法(特点:速度快)
3、BF算法
BF算法又称简单匹配算法,采用穷举法的思路
3.1 算法思路:
从主串的每一个字符开始依次和子串的字符进行匹配
Index(S,T,pos) 将主串的第pos个字符和模式串的第一个字符比较 * 如果两个指针指的元素相同,同时往后移动,直到子串结束 * 若中间出现不相同的情况,主串的指针回溯到 **i -(j-1)+1 = i - j + 2**、、、、子串的指针 j = 1(从头开始)
3.2 代码呈现
int Index_BF(SString s,SString T,int pos){
int i = pos, j = 1;
while(i<=S.legth&&j<=T.length){
if(s.ch[i]==t.ch[j]){++i;++j}//子串和主串依次匹配下一个字符
else{i=i-j+2;j=1}//主串、子串指针回溯重新开始下一次匹配
}
if(j>=T.length) return i-T.length;//返回匹配的第一个字符的下标
else return 0;//模式匹配不成功
}
3.3 BF算法的时间复杂度
若n为主串长度,m为子串长度
(n-m)*m+m = (n-m+1)
若 m<<n,则算法复杂度为O(n * m)
4、KMP算法
4.1 KMP算法的时间复杂度
若n为主串长度,m为子串长度
算法复杂度为O(n+m)
4.2 算法思路
当S[10]跟P[6]匹配失败时,KMP不是跟暴力匹配那样简单的把模式串右移一位,而是执行第②条指令:“如果j != -1,且当前字符匹配失败(即S[i] != P[j]),则令 i 不变,j = next[j]”,即j 从6变到2(后面我们将求得P[6],即字符D对应的next 值为2),所以相当于模式串向右移动的位数为j - next[j](j - next[j] = 6-2 = 4)。
向右移动4位后,S[10]跟P[2]继续匹配。为什么要向右移动4位呢,因为移动4位后,模式串中又有个“AB”可以继续跟S[8]S[9]对应着,从而不用让i 回溯。相当于在除去字符D的模式串子串中寻找相同的前缀和后缀,然后根据前缀后缀求出next 数组,最后基于next 数组进行匹配
4.3 前后缀
字符串 abcdab 前缀的集合:{a,ab,abc,abcd,abcda} 后缀的集合:{b,ab,dab,cdab,bcdab} 那么最长相等前后缀就是ab.
字符串:abcabfabcab中最长相等前后缀是abcab
4.4 代码呈现
int Index_KMP (SString S,SString T, int pos) {
i= pos,j =1;
while (i<S.length && j<T.length){
if(j==0]]S.ch[i]==T.ch[j]){i++;j++;}
else
j=next[j]; /*i不变j后退*/
}
if(j>T.length) return i-T.length; /*匹配成功*/
else return O; /*返回不匹配标志*/
}
next【j】的求法
void get_next(SString T, int &next[]){
i= 1; next[1] = 0; j = 0;
while(i<T.length){
if(j==0|| T.ch[i] == T.ch[j]){
++i; ++j;
next[i] = j;
}
else
j = next[j];
}
}