串的基本概念
定义:是由零个或多个字符组成的有限序列。
串中所含字符的个数称为该串的长度,含零个字符的串称为空串。
串相等:当且仅当两个串的长度相等并且各个对应位置上的字符都相同。所有空串都相等。
子串:一个串中任意个连续字符组成的子序列(含空串)称为该串的子串。
真子串:不包含自身的所有子串。
串的基本运算
串的顺序存储及其基本操作实现
两种方法:
1、每个单元只存一个字符,称为非紧缩格式(其存储密度小)。
2、每个单元存放多个字符,称为紧缩格式(其存储密度大)。
非紧缩格式字符串类型定义:
#define MaxSize 100
typedef struct
{ char data[MaxSize];//存储字符串
int length;//存储字符串长度
}SqString;
例题:设计顺序串上实现串比较运算Strcmp(s,t)的算法。
思路:(1)比较s和t两串共同长度范围内对应字符:
若s的字符>t的字符,返回1;若s的字符<t的字符,返回-1;若s的字符=t的字符,按规则继续比较。
(2)当(1)中对应字符均相同时,比较s和t的长度。
两者相等返回0,s>t返回1,s<t返回-1。
int Strcmp(SqString s,SqString t)
{ int i,comlen;
if(s.length<t.length)comlen=s.length;
else comlen=t.length;
for(i=0;i<comlen;i++)
if(s.data[i]>t.data[i])
return 1;
else if(s.data[i]<t.data[i])
return -1;
if(s.length==t.length)
return 0;
else if(s.length>t.length)
return 1;
else return -1;
}
串的链式存储及其基本操作实现
链串中的一个节点可以存储多个字符。通常将链串中每个节点所存储的字符个数称为节点大小。
节点类型定义:
typedef struct snode
{ char data;
struct snode *next;
}LiString;//串操作通常带有头节点
串的模式匹配
BF算法
简单匹配算法,穷举思路
int index(SqString s,SqString t)
{ int i=0,j=0;
while(i<s.length&&j<t.length)
{ if(s.data[i]==t.data[j])//继续匹配下一个字符
{i++;j++;}//主串和子串依次匹配下一个字符
else
{ i=i-j+1;
j=0;
}
}
if(j>=t.length)
return(i-t.length);
else return(-1);
}
最好情况下时间复杂度为O(m),最坏情况下时间复杂度为O(nm),平均时间复杂度为O(nm)
KMP算法
由模式串t求next值的算法:
void GetNext(SqString t,int next[])
{ int j,k;
j=0;k=-1;next[0]=-1;
while(j<t.length-1)
{ if(k==-1||t.data[j]==t.data[k])//改进:nextval[0]=-1
{ j++;k++;
next[j]=k;//改进:nextval[j]=nextval[next[j]];or:nextval[j]=next[j]
}
else k=next[k];//t=k
}
}
KMP算法:
int KMPIndex(SqString s,SqString t)
{ int next[MaxSize],i=0,j=0;
GetNext(t,next);
while(i<s.length&&j<t.length)
{
if(j==-1||s.data[i]==t.data[j];
{ i++;j++;}
else j=next[j];
}
if(j>=t.length)
return(i-t.length);
else
return(-1);
}
设串s的长度为n,串t长度为m。
在KMP算法中求next数组的时间复杂度为O(m),在后面的匹配中因主串s的下标不减即不回溯,比较次数记为n,平均时间复杂度为O(n*m)。