字符串
顺序串:用数组来存储串中的字符序列。
链接串:用链接存储结构来存储串。
如何表示串的长度?
方案1:用一个变量来表示串的实际长度。
方案2:在串尾存储一个不会在串中出现的特殊字符作为串的终结符,表示串的结尾。
方案3:用数组的0号单元存放串的长度,从1号单元开始存放串值。
模式匹配
给定主串S="s1s2…sn"和模式T=“t1t2…tm”,
在S中寻找T 的过程称为模式匹配。
如果匹配成功,返回T 在S中的位置,如果匹配失败,返回-1。
模式匹配——BF(Brute-Force)算法
基本思想:
从主串S的第0个字符开始和模式T 的第0个字符进行比较,
若相等,则继续比较两者的后续字符;
否则,从主串S的第1个字符开始和模式T 的第0个字符进行比较,
重复上述过程,直到T 中的字符全部比较完毕,则说明本趟匹配成功;
或S中字符全部比较完,则说明匹配失败。
说明:模式匹配过程要进行多趟的匹配,每趟匹配要进行若干次的比较
算法
1. 在串S和串T中设比较的起始下标i和j;
2. 循环直到S或T的所有字符均比较完;
2.1 如果S[i]==T[j],继续比较S和T的下一个字符;
2.2 否则,将i和j回溯(i=i-j+1,j=0),准备下一趟比较;
3. 如果T中所有字符均比较完,则匹配成功,返回匹配的起始比较下标(i-j);
否则,匹配失败,返回-1;
实现
int BF(char S[ ], char T[ ])
{
i=0; j=0;
while (i<S.Length()&&j<T.length())
{
if (S[i]==T[j]) {
i++; j++;
}
else {
i=i-j+1; j=0;
}
}
if (j>=T.length()) return (i-j);
else return -1;
}
复杂度
模式匹配——KMP(Knuth–Morris–Pratt)算法
主串不回溯,模式就需要向右滑动一段距离。(i不移动,j>=0的位置继续进行下一次的比较)
i可以不回溯,模式向右滑动到的新比较起点k ,并且k 仅与模式串T有关!
next[j]表征着模式T中最大相同前缀子串和左子串(真子串)的长度。
next[j]的算法分析(也是一个模式匹配过程)
k=next[j-1]
(由next[]的 定义可以知道:t0t1…tk-1= tj-k…tj-3tj-2)
1. 如果t[k]== t[j-1]或k==-1(不存在长度相同的前缀子串和左子串 )
则t0t1…tk-1tk= tj-k…tj-3tj-2tj-1,
因此next[j]=k+1,next[j]计算结束
2.否则,查找t0t1…tk的最长左子串
k=next[k],转 1 继续执行
void Compute_Next(char t[], int next[])
{
int j,k;
next[0]=-1;j=1;
while(t[j]!='\0')
{
k=next[j-1];
while((k!=-1)&&(t[k]!=t[j-1]))
k=next[k];
next[j]=++k;
j++;
}
}
KMP算法用伪代码描述
1. 在串S和串T中分别设比较的起始下标i和j;
2. 循环直到S中所剩字符长度小于T的长度或T中所有字符均比较完毕
2.1 如果S[i]==T[j],继续比较S和T的下一个字符;否则
2.2 将j向右滑动到next[j]位置,即j=next[j];
2.3 如果j=-1,则将i和j分别加1,准备下一趟比较;
3. 如果T中所有字符均比较完毕,则返回匹配的起始下标;否则返回-1;
KMP算法的实现
int KMP_FindPat(char *s, char *t,int *next){
int i=0,j=0,k;
while(s[i]!='\0' && t[j]!='\0') {
if(j==-1 || s[i]==t[j]) {
i++;
j++;
}
else
j=next[j];
}
if(t[j]=='\0')
return i-j;
else
return -1;
}