字符串模式匹配

子串的定位操作通常称作串的模式匹配,是各种串处理系统中最重要的操作之一。

设有2个串:主串S和子串T,串的简单模式匹配算法是:从主串S 中的第一个字符开始和子串T中的第一个字符比较,分别用ij 指示S串和T串中正在比较的字符的位置。若相等,则继续逐个比较后续字符;否则从主串S的第二个字符开始再重新与子串的第一个字符进行比较。依次类推,直到子串T中的每个字符依次和主串S中的一个连续字符序列相等,则匹配成功,返回子串T中第一个字符在主串S中的位置。

主串和子串均采用链式存储结构,在单链表建立过程中都采用后插法。P指针为主串的头指针,t指针为子串的头指针,sk分别为主串和子串的中间指针,始终指向新建立的结点。

参考程序:

#include<stdio.h>

#define null  0

typedef struct node

{char ch;

 struct node *next;

}slnode;

slnode *p,*t,*s,*k,*first;

void initiate(slnode **h)

{*h=(slnode *)malloc(sizeof(slnode));

 (*h)->next=null;

}

slnode append(slnode *p,int x)

{slnode *s;

 s=(slnode *)malloc(sizeof(slnode));

 s->ch=x;

 s->next=null;

 k->next=s;

 k=s;

}

main()

{int i,x=0;

 initiate(&p);

 k=p;

 printf("Input main string: ");

 while(x!='/n')

  {x=getchar();

   if(x!='/n')

    append(p,x);

  }

 x=0;

 initiate(&t);

 k=t;

 printf("Input sub-string: ");

 while(x!='/n')

  {x=getchar();

   if(x!='/n')

    append(t,x);

  }

 s=t->next;

 i=1;

 s=p->next;

 first=s;

 k=t->next;

 while((s!=null)&&(k!=null))

 if(s->ch==k->ch)

   {s=s->next;

    k=k->next;

   }

 else

   {i=i+1;            //从主串的下一个字符开始,重新与子串的第一个字符比较

    k=t->next;

 

    s=first->next;

    first=s;

   }

 if(k==null)

 printf("/nmatch postion:%d",i);

 else

 printf("/nThe two strings are not matched!");

 printf("/n");

}

 

 

 

 

 

 

 

 

简单模式匹配算法因为有回溯所以速度慢,还有一种改进算法,消除了回溯所以加快了匹配速度。这种改进算法是D.E.KnuthV.R.PrettJ.H.Morris同时发现的,因此人们称之为克努特-莫里斯-普拉特操作(简称KMP算法)。此算法可以在O(n+m)的时间数量级上完成串的模式匹配操作。改进之处在于:当每一趟匹配过程中出现字符比较不相等时,不回溯i指针,而是利用已经得到的“部分匹配”的结果将子串向右“滑动”尽可能远的一端距离后,继续进行比较。

具体实例,若Si Tj不相同,但是主串中从i-j+1i-1下标的字符与子串中从1j下标的字符一一对应。此时应确定子串右移的位数,然后与主串相应位进行比较。不妨把与Si进行比较的子串字符记作Tk(k<j)Kunth等人发现这个k值仅仅依赖于子串的前j个字符,而与主串无关。用next[j]表示与j对应的k值,则表明子串第j个字符与主串相应位失配时(SiTj),可以用子串中以next[j]为下标的字符与主串中Si进行比较。若next[j]=0,表明子串中任何字符都不与主串中的Si进行比较,主串中下一个字符Si+1T1进行比较。

Next[j]函数的定义如下:

0   j=1

     next[j]=     max{k| 0<k<j T1T2…Tk-1=Tj-k+1…Tj-1

1   其他

这样,改进匹配算法与简单匹配算法不同之处可概括为:当匹配过程产生失配时,指针i不变,指针j退回到next[j]所指示的位置上重新进行比较,并且当指针j退回至0时,指针ij同时增加1。即若主串的第I个字符和子串的第i个字符不匹配时,应该从主串的下一个字符(Si+1)重新进行匹配。

#include<stdio.h>

#define null 0

char s[20],t[20];

int  next[20];

int i,j,k,s1,t1,index;

char x=0;

main()

{s1=0;

 t1=0;

 printf("Input the main string: ");

 while(x!='/n')

   {x=getchar();

    if(x!='/n')

      {s1++;

       s[s1]=x;

      }

    }

 printf("/nInput the substring: ");

 x=0;

 while(x!='/n')

   {x=getchar();

    if(x!='/n')

      {t1++;

       t[t1]=x;

      }

    }

 j=1;                   //求子串的next函数值,并存入数组next

 k=0;

 next[1]=0;

 while(j<t1)

 if((k==0)||(t[j]==t[k]))

 {j=j+1;

  k=k+1;

  next[j]=k;

 }

 else

  k=next[k];

 printf("/nOut put array next[]:");

 for(i=1;i<=t1;i++)

 printf("%d",next[i]);

 i=1;

 j=1;

 while((i<=s1)&&(j<=t1))

 if((j==0)||(s[i]==t[j]))

   {i=i+1;                    //继续比较后续字符

    j=j+1;

   }

 else

    j=next[j];                //子串向右移动

 if(j>t1)

  {index=i-t1;

   printf("/nmatch position:%d/n",index);

  }

 else

   printf("/nThe two strings are not matched!/n");

}

 

 

 

 

 

 

 

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值