第五章 串
ASCII码,8位表示一个字符,共有256种。Unicode,16位表示一个字符,有65W种。
两串大小:其他相同,个数多的大。或从左到右,有个位置小就小。
线性表更关注的是单个元素的操作,比如查找、删除和插入。但串更多的是查找子串的位置、得到指定位置子串、替换子串等操作。相邻元素也具有前驱和后继关系。
串的存储结构与线性表相同
串的顺序存储
是用一组地址连续的存储单元存储字符序列。用动态分配。最后有个“\0”来表示结束。malloc和free“堆”。
串的链式存储
不如顺序的好。
串的匹配
朴素模式匹配算法:数组
返回子串T在主串S中第pos个字符之后的位置,若不存在,则函数返回值为0。
int Index (String S, String T, int pos)
{
int i = pos; /* 主串S中当前位置的下标,若pos不为1,则从pos位置开始匹配 */
int j = 1; /* 子串T中的位置*/
while ( i <= S[0] && j <= T[0] )
{
if ( S[i] == T[j]
[++i;++j; ]
else { i=i-j+2; j =1; } /* i返回到之前匹配首位的下一位,j回到T的首位*/
}
if (j>T[0]) return i-T[0] ; else return 0;
}
要把主串挨个作为首位挨个遍历,但是可能到最后才发现不是。最坏时间复杂度O((n-m+1)*m)
KMP模式匹配算法:
i值不回溯,不可能变小,变化的是j值。j的变化取决于子串的重复性。如“T=abcdef”,没有重估,那j就会由6变为1.如“T=abcabc”,有重复,j就会由6变为3。
对于目标字符串ptr,ababaca,长度是7,所以next[0],next[1],next[2],next[3],next[4],next[5],next[6]分别计算的是
a,ab,aba,abab,ababa,ababac,ababaca的相同的最长前缀和最长后缀的长度。由于a,ab,aba,abab,ababa,ababac,ababaca的相同的最长前缀和最长后缀是“”,“”,“a”,“ab”,“aba”,“”,“a”,所以next数组的值是[-1,-1,0,1,2,-1,0],这里-1表示不存在,0表示存在长度为1,2表示存在长度为3。这是为了和代码相对应。(抄的)
实现:
这里不是很喜欢书上的代码,在网上找的。
void get_next( char *str, int *next, int len)
{
next[0]=-1; /*第一个位置初始化为-1*/
int k=-1; /*k表示要回撤到的位置*/
for (int q=1;q<=len-1;q++) /*计算next[ ]的值*/
{
while(k>-1 && str[k+1]!=str[q] ){
k=next[k];}
if ( str[k+1]==srt[q]){
k+k+1;}
next[q]=k; /*把k的值给next[]*/
}
}
今天到这了,没看完,代码没完全理解了。明天好好看并把第六章看完。