(5)数据结构--串

目录

一.串定义与基本操作

1.1.串的定义

1.2.串的基本操作

二.串的存储结构

2.1串的顺序存储

 2.2串的链式存储

3.3 串的基本操作

3.3.1 求子串

3.3.2 比较串的大小

3.3.3 定位操作

三.字符串的模式匹配

3.1 朴素模式匹配算法

3.2 KMP算法

3.3 求next数组

3.4 KMP算法的进一步优化


一.串定义与基本操作

1.1.串的定义

,即字符串(String)是由零个或多个字符组成的有限序列。一般记为
S = ‘a1a2······an' (n ≥0)
其中,S是串名,单引号(双引号)括起来的字符序列是串的值;ai可以是字母、数字或其他字符;串中字符的个数n称为串的长度。n = 0时的串称为空串(用∅表示)。

例:
S=”HelloWorld!”
T=‘iPhone 11 Pro Max?’

子串:串中任意个连续的字符组成的子序列。

主串:包含子串的串。

字符在主串中的位置:字符在串中的序号。

串在主串中的位置:子串的第一个字符在主串中的位置 。

空串 V.S空格串:

注:与线性表相似

1.2.串的基本操作

StrAssign(&T,chars):赋值操作。把串T赋值为chars。

StrCopy(&T,S):复制操作。由串S复制得到串T。

StrEmpty(S):判空操作。若S为空串,则返回TRUE,否则返回FALSE。

StrLength(S):求串长。返回串S的元素个数。

ClearString(&S):清空操作。将S清为空串。

DestroyString(&S):销毁串。将串S销毁(回收存储空间)。

Concat(&T,S1,S2):串联接。用T返回由S1和S2联接而成的新串。

SubString(&Sub,S,pos,len):求子串。用Sub返回串S的第pos个字符起长度为len的子串。

Index(S,T):定位操作。若主串S中存在与串T值相同的子串,则返回它在主串S中第一次出现的位置;否则函数值为0。

StrCompare(S,T):比较操作。若S>T,则返回值>0;若S=T,则返回值=0;若S<T,则返回值<0。

1.从第一个字符开始往后依次对比,先出现更大字符的串就更大 。

2.长串的前缀与短串相同时,长串更大。

3.只有两个串完全相同时,才相等。

二.串的存储结构

2.1串的顺序存储

#define MAXLEN 255;    //预定义最大串为255
// 静态数组实现(定长顺序存储)
typedef struct{
    char ch[MAXLEN];    //每个分量存储一个字符
    int length;        //串的实际长度
}SString;

// 动态数组实现(堆分配存储)
tyepdef struct{    
    char *ch;    //按串长分配存储区,ch指向串的基地址
    int length    //串的长度
}HString;

Hstring S;
S.ch = (char *)malloc(MAXLEN * sizeof(char));  //用完需要手动free
S.length==0;

方案一:专门申请length

方案二:ch[0]充当length,优点:字符的位序和数组下标相同

方案三:没有Length变量,以字符’\0'表示结尾(对应ASCIl码的 0),需要从头到尾扫描,扫描到‘\0’才能得到字符串的长度

方案四:ch[0]废弃不用,专门申请length

 2.2串的链式存储

typedef struct StringNode{
    char ch;    //每个结点存放1个字符
    struct StringNode *next;
}StringNode,*String;

一个char的大小为1B,但是在32位计算机中,指针大小为4B,这就表示我们在存储一个字符时,只用了1B存储实际需要存储的信息,用了4B存储了辅助信息。这样存储密度就太低了。

typedef struct StringNode{
    char ch[4];    //每个结点存多个字符
    struct StringNode *next;
}StringNode, *String;

如图,最后一个结点如果存不满,用字符填充

 

3.3 串的基本操作

3.3.1 求子串

SubString(&Sub,S,pos,len):求子串。用Sub返回串S的第pos个字符起长度为len的子串。

 

#define NAXLEN 255;
typedef struct{
    char ch[MAXLEN];
    int length;
}SString;

// 求子串
bool SubString(SString &Sub, SString S, int pos, int len){
    if(pos+len-1<S.length)
        return false;
    for(int i=pos;i<pos+len;i++)
        Sub.ch[i-pos+1]=S.ch[i];
    Sub.length = len;
    return true;
}

3.3.2 比较串的大小

StrCompare(S,T):比较操作。若S>T,则返回值>0;若S=T,则返回值=0;若S<T,则返回值<0。

 图中返回1

//比较操作,若S>T,则返回值>0,若S=T,则返回值=0,若S<T,则返回值<0
int StrCompare(SString S,SStromg T){
    for(int i=0; i<S.length&&i<T.length; i++){
        if(S.sh[i]!=T.sh[i])
            return S.sh[i]-S.sh[j];
    }
    //扫描过的所有字符都相同,则长度长的字符串大
    return S.length-T.length;
}

3.3.3 定位操作

Index(S,T):定位操作。若主串S中存在与串T值相同的子串,则返回它在主串s中第一次出现的
位置;否则函数值为0。

int Index(SString S,SString T){
    int i=0,n=StrLength(S), m=StrLength(T);
    SString sub;     //用于暂时存储子串
    while(i<n-m+1){
        SubString(sub,S,i,m);
        if(StrCompare(sub,T)!=0)
            i++;
        else
            return i;    //返回子串在主串的位置
    }    
    return 0;        //S中不存在与T相等的子串
}


// 串长
int StrLength(SString S){
    return S.length;
}

//求子串
bool SubString(SString &Sub, SString S, int pos,int len){
    if(pos+len-1>S.length)
        return false;
    for(int i=pos, i<S.length,i++)
        Sub.sh[i-pos+1]=S.sh[i];
    Sub.length=len;
    return false;
}

//比较串大小
int StrCompare(SString S,SString T){
    for(int i=0;i<S.length&&i<T.length;i++){
        if(S.sh[i]!=T.sh[i])
            return S.sh[i]-T.sh[i];
    }
    return S.length-T.length;
}

三.字符串的模式匹配

3.1 朴素模式匹配算法

什么是模式匹配?

在主串中找到与模式串相同的⼦串,并返回其所在位置。

子串:主串的一部分,一定存在

模式串:不一定在主串中找到

若主串长度为n,模式串长度为 m,将主串中所有长度为m的子串依次与模式串对比,直到找到一个完全匹配的子串或所有的子串都不匹配为止。度为n的主串中,最多有n-m+1个子串

若匹配失败,如上图所示,则主串指针 i 指向下一个子串的第一个位置,模式串指针 j 回到模式串的第一个位置。

只需要改变i,j指针的指向,就可以完成以上操作。

i=i-j+2;    // i-(j-1)相当于i回到开始的位置,再加1就是下一个字符串
j=1;    // j-(j-1)就相当于回到了1

若j>T.length(j指向的位置超出了模式串的长度),则当前子串匹配成功,返回当前子串第一个字符的位置 ---- i-T.length

int Index(SString S,SString T){
    int i=1,j=1;
    while(i<S.length && j<T.length){
        if(S.ch[i]==T.sh[j]){
            ++i;
            ++j;
        }else{
            i=i-j+2;
            j=1;
        }
    }
    if(j>T.length)
        return i-T.length;
    else
        return 0;
}

设主串长度为n,模式串长度为m,每个子串都要对比 m 个字符,共 n-m+1 个子串,复杂度=O((n-m+1)m) = O(nm-m^2+m) = O(nm),通常情况下n>>m

那么最坏时间复杂度=O(nm)

3.2 KMP算法

重点思考

以模式串abaabc为例

1.当第6个元素匹配失败时:

模式串向后移动,i不变。(j--,i不变)  直到移动到说不定匹配情况,如下图:

结论:当第6个元素匹配失败时,可令主串指针 i 不变,模式串指针 j=3

2.当第5个元素匹配失败时:

模式串向后移动,i不变。(j--,i不变)  直到移动到说不定匹配情况,如下图:

结论:当第5个元素匹配失败时,可令主串指针 i 不变,模式串指针 j = 2

3.当第4个元素匹配失败时:

模式串向后移动,i不变。(j--,i不变)  直到移动到说不定匹配情况,如下图:

结论:当第4个元素匹配失败时,可令主串指针 i 不变,模式串指针 j = 2

4.当第3个元素匹配失败时:

模式串向后移动,i不变。(j--,i不变)  直到移动到说不定匹配情况,如下图:

结论:当第3个元素匹配失败时,可令主串指针 i 不变,模式串指针 j = 1

5.当第2个元素匹配失败时:

模式串向后移动,i不变。(j--,i不变)  直到移动到说不定匹配情况,如下图:

结论:当第2个元素匹配失败时,可令主串指针 i 不变,模式串指针 j = 1

6.当第1个元素匹配失败时:

模式串向后移动,i也向后移动。(j=0, i++, j++)  直到移动到说不定匹配情况,如下图:

结论:匹配下⼀个相邻⼦串,令 j=0, i++, j++

整体总结:

当第6个元素匹配失败时,可令主串指针 i 不变,模式串指针 j=3
当第5个元素匹配失败时,可令主串指针 i 不变,模式串指针 j=2
当第4个元素匹配失败时,可令主串指针 i 不变,模式串指针 j=2
当第3个元素匹配失败时,可令主串指针 i 不变,模式串指针 j=1
当第2个元素匹配失败时,可令主串指针 i 不变,模式串指针 j=1
当第1个元素匹配失败时,匹配下⼀个相邻⼦串,令 j=0, i++, j++

从而得出next数组

int Index_KMP(SString S,SString T,int next[]){
    int i=0,j=0;
    //循环遍历
    while(i<S.length && j<T.length){
        if(j==0 || S.ch[i]==T.sh[j]){
            ++i;
            ++j;    //继续比较后继字符
        }else
            j=next[j];    //模式串向右移动
    }
    if(j>T.length)
        return i-T.length;    //匹配成功
    else 
        return 0;
}

KMP算法,最坏时间复杂度 O(m+n)

其中,求 next 数组时间复杂度 O(m)
模式匹配过程最坏时间复杂度 O(n)

3.3 求next数组

求next数组参考 3.2重点思考,以模式串abaabc为例.

练习1:写出google的next数组

注:next[1] 直接填0,next[2]直接填1。

练习2:模式串 T = ababaa

3.4 KMP算法的进一步优化

重点思考:

1.当j=3时不匹配

j=3 指向a,因为不匹配,所以i=3指向不是a.

j=3 通过next数组指向 1;

因为j=1 指向的也为a,  i=3本来不是a. 所以next[3] 改成直接next[1],也就是0

2.当j=4时不匹配

j=4 指向a,因为不匹配,所以i=4指向不是a.

next数组指向j=2,也就是b, 所以不能更改

最终

练习

模式串 T = ababaa

注:

nextval[1]=0; 

如果j指向的字符与next[j]所指的字符相同nextval[j]=nextval[next[j]];   

例如上图,j=3时,j所指的字符是a,其next[3]所指的字符也是a,那么就让nextval的值优化为next[1]的值0。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值