课堂笔记:字符串存储、模式匹配

串的逻辑结构
串:零个或多个字符组成的有限序列。
串长度:串中所包含的字符个数。
空串:长度为0的串,记为:" “。
非空串通常记为:S=” s1 s2 …… sn " 其中:S是串名,双引号是定界符,双引号引起来的部分是串值 ,si(1≤i≤n)是一个任意字符。
子串:串中任意个连续的字符组成的子序列。
主串:包含子串的串。
子串的位置:子串的第一个字符在主串中的序号。
串的存储结构
顺序串:用数组来存储串中的字符序列。
如何表示串的长度?
1、用一个变量来表示串的实际长度。
2、在串尾存储一个不会在串中出现的特殊字符作为串的终结符,表示串的结尾。
3、用数组的0号单元存放串的长度,从1号单元开始存放串值。
链接串:用链接存储结构来存储串。
模式匹配
给定主串S="s1s2…sn"和模式T=“t1t2…tm”, 在S中寻找T的过程称为模式匹配。
BF(Brute-Force)算法
基本思想:从主串S的第0个字符开始和模式T 的第0个字符进行比较, 若相等,则继续比较两者的后续字符; 否则,从主串S的第1个字符开始和模式T 的第0个字符进行比较, 重复上述过程,直到T 中的字符全部比较完毕,则说明本趟匹配成功;或S中字符全部比较完,则说明匹配失败。
说明:模式匹配过程要进行多趟的匹配,每趟匹配要进行若干次的比较。1、在串S和串T中设比较的起始下标i和j;
2、循环直到S或T的所有字符均比较完;
2.1、如果S[i]==T[j],继续比较S和T的下一个字符;
2.2、否则,将i和j回溯(i=i-j+1,j=0),准备下一趟比较;
3、如果T中所有字符均比较完,则匹配成功,返回匹配的起始比较下标(i-j);否则,匹配失败,返回-1;

int BF(char S[ ], char T[ ])
{
     i=0; j=0;        
     while(i<S.Length()&&j<T.length())     
     {          
          if(S[i]==T[j]) {
              i++; 
              j++;          
          }            
          else{              
              i=i-j+1;    
              j=0;          
          }         
      }      
      if(j>=T.length()) 
          return (i-j);         
      else 
          return -1; 
}

设串S长度为n,串T长度为m,在匹配成功的情况下,考虑两种极端情况:
⑴ 最好情况:不成功的匹配都发生在串T的第一个字符。
所有匹配成功的可能情况共有n-m+1种。
(2)最坏情况:不成功的匹配都发生在串T的最后一个字符。
所有匹配成功的可能情况共有n-m+1种。
时间复杂性:O(n*m)
KMP(Knuth–Morris–Pratt)算法
为什么BF算法时间性能低?
在每趟匹配不成功时存在大量回溯,没有利用已经部分匹配的结果。
如何在匹配不成功时主串不回溯?
主串不回溯,模式就需要向右滑动一段距离。(i不移动,j>=0的位置继续进行下一次的比较)。
i可以不回溯,模式向右滑动到的新比较起点k ,并且k仅与模式串T有关。

令k = next[j],则:
next[j]={-1        当j=0时
          max {k|0<k<j且T0…Tk-1=Tj-(k-1) …Tj-1}
          0         其他情况}

next[j]表征着模式T中最大相同前缀子串和左子串(真子串)的长度。
next[j]的算法分析:
k=next[j-1](由next[]的定义可以知道:t0t1…tk-1= tj-k…tj-3tj-2)
1、如果t==[k]t[j-1]或k==-1(不存在长度相同的前缀子串和左子串 ) 则t0t1…tk-1tk= tj-k…tj-3tj-2tj-1,因此 next[j]=k+1,next[j]计算结束;
否则, 查找t0t1…tk的最长左子串,k=next[k],转 1 继续执行。
KMP算法用伪代码描述
1、在串S和串T中分别设比较的起始下标i和j;
2、循环直到S中所剩字符长度小于T的长度或T中所有字符均比较完毕
2.1、如果S[i]==T[j],继续比较S和T的下一个字符;否则
2.2、将j向右滑动到next[j]位置,即j=next[j];
2.3、如果j=-1,则将i和j分别加1,准备下一趟比较;
3、如果T中所有字符均比较完毕,则返回匹配的起始下标;否则返回-1;

int KMP_FindPat(char *s, char *t,int *next) {
     int i=0,j=0,k;  
     while(s[i]!='\0' && t[j]!='\0') {
         if(j==-1||s[i]==t[j]) {
             i++;                  
             j++;            
         }   
         else         
             j=next[j];  
     }  
     if(t[j]=='\0')
         return i-j;  
     else
         return -1;
}

时间复杂度:O(n+m)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值