串的基础概念:
1.字符集:表示可以在串中使用的字符集合。常用字符集包:ASCII、Unicode 等。
2.子串:指一个串中任意连续的一段字符所组成的子序列。
3.前缀:指一个串中从起始位置开始的任意子串。
4.后缀:指一个串中以最后一个字符为结尾的任意子串。
5.匹配:指在一个串中查找另一个串出现的过程,可以用来进行模式匹配、字符串搜索等。
6.模式串:是被匹配的串,也称为模式,一般是较短的字符串。
字符串匹配算法:
BF:
int BF(char *p,char *q)
{
int i=0,j=0;
while(p[i]!='\0'&&q[j]!='\0')
{
if(p[i++]==q[j++])
continue ;
else
i=i-j+1,j=0;
}
if(q[j]=='\0')
return 1;
return 0;
}
KMP:
KMP算法核心是next数组来源的函数:
以下是get_next函数:
void get_next(char *ch,int *next)
{
int length=strlen(ch),i=0,j=-1;
while(i<length)
{
if(j==-1||ch[i]==ch[j])
++i,++j,next[i]==j;
else
j=next[j];
}
}
KMP调用函数:
int KMP(char *p,char *q)
{
int length_p=strlen(p),length_q=strlen(q);
int i=0,j=0;
int *next=(int *)malloc(sizeof(int)*length_q);
get_next(q,next);
while(i<length_p&&j<length_q)
{
if(*(p+i)==*(q+j))
i++,j++;
else
j=next[j];
}
if(j>=length_q)
return 1;
return 0;
}
nextval 是在 KMP 算法中使用的一种改进方法,它可以对 next 数组进行优化,以达到更快的匹配速度。当遇到一个字符和最近的匹配字符相同时,nextval 数组与 next 数组的值相同;否则,我们可以跳过一些字符,直接将 j 跳到 nextval[j] 所指向的位置,这样就可以加速匹配过程了。
以下为nextval子函数代码:
void get_nextval(int *nextval,char*ch)
{
int length=strlen(ch),i=0,j=-1;
while(i<length)
{
if(j==-1||ch[i]==ch[j])
{
i++,j++;
if(ch[i]!=ch[j])
nextval[i]=j;
else
nextval[i]=nextval[j];
}
else
j=nextval[j];
}
}