《数据结构》-第四章串、数组和广义表(知识点总结)

代码太难敲啊喂

已于 2022-05-24 15:02:36 修改

阅读量6.1k

点赞数 17

分类专栏：数据结构文章标签：数据结构数组

于 2021-07-29 15:52:25 首次发布

本文链接：https://blog.csdn.net/weixin_41831593/article/details/119212073

版权

数据结构专栏收录该内容

18 篇文章 228 订阅

订阅专栏

第四章串、数组和广义表

本章对串、数组和广义表这几类特殊的线性表进行讨论，也可看做为线性表的扩充。串的特殊性体现在数据元素是一个字符，即是内容受限的线性表，数组与广义表的特殊性为线性表的数据元素自身又是一个数据结构。

对于应试，本章内容较为容易掌握，相对于其他章节所占比分较少，往往以选择或填空题出现，对算法题目主要出现在对BF算法和KMP算法理解上。

【考点】①串的重点考点为串的模式匹配算法；

②数组的主要考点为数组下标与存储地址计算和特殊矩阵的压缩存储方法；

③广义表的定义、性质及其GetHead和GetTail的操作。

【本章大纲】

【目录】

一、串

1.1 串的相关概念

【定义】由零个或多个字符组成的有限序列，一般记为 s= "a1 a2 … an" (n≥O)

【串名】s就是串的名字。

【串值】由双引号括起来的字符序列就是串的值

【串长】串中字符的数目n即为串长

【空串】零个字符的串，其长度为零。注意空格串与空串的区别。

【子串】串中任意个连续的字符组成的子序列称为该串的子串。

【主串】包含子串的串相应地称为主串。

1.2 串的模式匹配算法

串的模式匹配也称为子串定位运算或串匹配，其目的在于确定主串中所含子串第一次出现的位置（定位）。在串匹配中，一般将主串称为目标串，子串称之为模式串。

同时，模式匹配不一定是从主串的第一个位置开始，可以指定主串中查找的起始位置 pos。该算法主要分为两种：①BF算法（又称穷尽算法或暴力算法）； ②KMP算法（拥有速度快的特点）。

1.2.1 BF算法（⭐⭐）

【算法思想】BF算法作为暴力算法，其特点为未比较失败，当出现不匹配时，主串返回到模式后移一位字符进行比较。具体过程如下：

①分别利用计数指针i 和j指示主串S和模式T中当前正待比较的字符位置,初值为pos, j初值为1。

②如果两个串均未比较到串尾，即i和j均分别小于等于S和T的长度时，则循环执行以下操作：

● S[i].ch和T[i].ch比较，若相等，则i和j分别指示串中下个位置，继续比较后续字符；

●若不等，指针后退重新开始匹配，从主串的下一个字符 (i=i-j+2) 起再重新和模式的第一个字符 (j=1) 比较。

③如果j> T.length, 说明模式T中的每个字符依次和主串S中的一个连续的字符序列相等，则匹配成功，返回和模式T中第一个字符相等的字符在主串S中的序号(i-T.length); 否则称匹配不成功，返回0。

【算法分析】 如下例：主串为“000000000002”，子串为“002”，i=1开始比较，每趟都比较3次后发现不相等，指针都要回溯。

因此，若n为主串长度，m为模式串长度，最坏情况是主串前面n-m个位置都部分匹配到子串的最后一位，即这n-m位各比较了m次，最后m位也各比较了1次，总次数为：(n-m)*m+m＝(n-m+1)*m，若m<<n，则算法复杂度O(n*m)。

【算法描述】

int  Index(Sstring S,Sstring T,int pos){
   i=pos;   j=1;          //主串从第pos位置开始
   while (i<=S.length && j <=T.length){
       if (S[i]==T[j]) { //相同时继续后移比较
          ++i;
          ++j; }
       else{            //不相等，指针回溯比较，回宿到主串的下一个字符
          i=i-j+2;
          j=1; }
}
   if ( j>T.length)   
      return   i－T.length;  //返回字串位置
   else 
     return 0;
}

1.2.2 KMP算法（难）

【算法思想】

在BF算法中每次失败都是从模式后移一位再从头开始比较，这时就产生一个问题，某趟已匹配相等的字符序列是模式的某个前缀，这种重复比较相当于模式串在不断地进行自我比较，这种自我比较是非常低效的。

KMP算法就是为解决此问题应运而生，其改进在千：每当一趟匹配过程中出现字符比较不等时，不需回溯i指针，而是利用已经得到的‘部分匹配’的结果将模式向右‘滑动’尽可能远的一段距离后，继续进行比较。即主串i指针无须回溯，并从该位置开始继续比较，而模式向后滑动位数的计算仅与模式本身的结构有关，与主串无关。

如下图的例子中，在BF算法思想中，在第三趟的匹配中,当i=7、j=5字符比较不等时,又从i=4、j=1重新开始比较。然后，经仔细观察可发现，i=4和j=1, i=5和j=1,以及i=6和j=1这3次比较都是不必进行的。因为从第三趟部分匹配的结果就可得出，主串中第4个、第5个和第6个字符必然是“b"、 “c”和“a”(即模式串中第2个、第3个和第4个字符)。

又因模式中的第一个字符是“a”, 因此它无需再和这3个字符进行比较，而仅需将模式向右滑动3个字符的位置继续进行i=7、j=2时的字符比较即可。

同理，在第一趟匹配中出现字符不等时，仪需将模式向右移动两个字符的位置继续进行i=3、j=1时的字符比较。由此，在整个匹配的过程中，i指针没有回溯，如图4.5所示。

【前缀后缀】①前缀：除去最后一个字符以外的子串

②后缀：除去第一个字符以外的尾部子串

③部分匹配值：前缀和后缀的最长相等前后缀长度。

eg：在字符串S={abab}中，前缀为{a}、{ab}、{abc}，后缀为{b}、{ab}、{bab}，其最长相等前后缀长度为2（即部分匹配值为2）。

【next数组】根据上面的理论，不禁让人想到在比较不相同时，主串中第 i个字符应与模式中哪个字符再比较？此时就引出了next[j]函数来指导正确的右滑位置，计算当模式串中第j个字符与主串中相应字符“失配”时，在模式中需重新和主串中该字符进行比较的字符的位置 k 的值。next数组确定方法：①通过最长前后缀值确定；

②将前一位元素与其next值所对应的字符进行比较

相等：前一位元素的next值+1，即为此字符的next值；

不相等：继续向前寻找与next值对应的元素进行比较，直到某一位置的next值所对应的元素与此前一位字符相同，则此字符的next值为这个位置的next+1；若前移至第一位都没有相同的，则将其next=1。<注意>初始状态下，默认next[1]=0，next[2]=1。

（关于KMP算法不太好理解，具体计算过程例题可参考练习题中例子）

【算法优化】

前面定义的next 函数在某些情况下尚有缺陷；例如模式"aaaab" 在和主串"aaabaaaab"匹配时，当i=4、j=4 时s.ch[4]≠t.ch[4],由next[j]的指示还需进行i=4、j=3, i=4、j=2,i=4、j=l这3次比较。实际上，因为模式中第1~3个字符和第4个字符都相等，因此不需要再和主串中第4个字符相比较，而可以将模式连续向右滑动4个字符的位置直接进行i=5、j=l时的字符比较。

由上述定义可得，当next[j] = k，而pj=pk，则主串中si和j不等时，不需再和pk进行比较，而直接和pnext[k]进行比较。因此，产生了对next数组值进行修正的nextval[ ]数组，其主要计算方法是将next值与其所对应字符进行比较：

①若相等，nextval[ ]值=原next对应的值

②若不相等，nextval[ ]值=前一个相等元素的next所对应的值，即为next[ j ]=next[.. next[ j ]..]

【算法分析】

设主串s的长度为n,模式串t长度为m,在KMP算法中求next数组的时间复杂度为O(m),在后面的匹配中因主串s的下标不减即不回溯,比较次数可记为n,所以KMP算法总的时间复杂度为O(n+m)。

【算法描述】（统考不要求KMP算法代码，但是通过代码更好理解KMP算法的思想）

/*next数组求法*/
void get_next(SString T, int &next[])
{
     i= 1; next[1]=0;j=0;   //初始化
     while(i<T[0]){
          if(j==0||T[i]==T[j]){
              ++i; ++j; 
              next[i]=j;    //若pi=pj，则next[j+1]=next[j]+1
          }
          else
              j=next[j];   //若pi≠pj，继续循环
     }
}

/*KMP算法*/
int Index_KMP (SString S,SString T, int pos) 
{      
       i= pos,j =1;
       while (i<S[0]&&j<T[0]) {     
             if (j==0||S[i]==T[j]){ //第一个位置匹配失败
                 i++;j++;  
              }
             else 
                 j=next[j];         //i不变,j后退
       }
       if (j>T[0])  return i-T[0];  //匹配成功
       else   return 0; 	         //返回不匹配标志
}

/*nextval数组求法*/
void get_nextval(SString T, int &nextval[])
{
     i=1;nextval[1]=0;j=0;   
     while(i<T[0]){
          if(j==0||T[i]==T[j]){
                ++i; ++j; 
                if(T[i]!=T[j]) 
                   nextval[i]=j;
                else  
                   nextval[i]=nextval[j];
          }
          else  j=nextval[j];
     }
}