数据结构与算法-串

基本概念

  串(string)是由零个或多个字符组成的有限序列,又名叫字符串。一般记为s=“a1a2···an”(n≥0),其中s是串的名称,用双引号括起来的字符序列是串的值。ai(1≤i≤n)可以是字母、数字或其他字符,i就是该字符在串中的位置。串中的字符数目n称为串的长度。
  空串,零个字符的串称为空串。
  空格串,是只包含空格的串。注意它与空串的区别,空格串是有内容有长度的,而且可以不止一个空格。
  子串和主串,串中任意个数的连续字符组成的子序列称为该串的子串,相应地,包含子串的串称为主串。

串的比较

  • 字符编码(字符在对应字符集中的序号)

  计算机中常用的字符是使用标准的ASCII编码,更准确一点,由7位二进制数表示一个字符,总共可以表示128个字符。后来发现一些特殊符号的出现,128个不够用,于是扩展ASCII码由8位二进制数表示一个字符,总共可以表示256个字符,这已经足够满足以英语为主的语言和特殊符号进行输入、存储、输出等操作的字符需要了。但全世界估计要有成百上千种语言和文字,显然这256个字符是不够的,因此后来就有了Unicode编码,比较常用的是由16位的二进制数表示一个字符,这样总共就可以表示216个字符,约65万多个字符,足够表示世界上所有语言的所有字符了。当然,为了和ASCII码兼容,Unicode的前256个字符与ASCII码完全相同。

  • 串的比较是通过组成串的字符之间的编码来进行的

  给定两个串:s=“a1a2···an”,t=“b1b2···bm”,当满足以下条件之一时,s<t。

  1. n<m,且ai=bi(i=1,2,···,n)。比如s=“hap”,t=“happy”,s<t。
  1. 存在某个k≤min(m, n),使得ai=bi(i=1,2,···,k-1),ak<bk。比如s=“happen”,t=“happy”,因为两串的前4个字母均相同,而两串的第5个字符(k值),字母e的ASCII码是101,而字母y的ASCII码是121,显然e<y,所有s<t。

串的存储结构

顺序存储

  串的顺序存储结构是用一组地址连续的存储单元来存储串中的字符序列的。按照预定义的大小,为每个定义的串变量分配一个固定长度的存储区。一般使用定长数组来定义。
  但这样的顺序存储方式是有问题的,因为字符串的操作,比如连接、插入以及替换,都有可能使得串序列的长度超过了数组的长度MaxSize。
  于是对于串的顺序存储,有一些变化,串值的存储空间可在程序执行过程中动态分配而得。比如在计算机中存在一个自由存储区,叫做“堆”。这个堆可由C语言的动态分配函数malloc()和free()来管理。

链式存储

  对于串的链式存储结构,与线性表是相似的,但由于串结构的特殊性,结构中每个元素数据是一个字符,如果也简单的应用链表存储串值,一个结点对应一个字符,就会存在很大的空间浪费。因此一个结点可以存放一个字符,也可以考虑存放多个字符,最后一个结点若是未被占满时,可以用“#”或其他非串值字符补全。(当然,这里一个结点存多少个字符才合适就变得很重要,这会直接影响着串的效率。)

  但串的链式存储结构除了在连接串和串操作时有一定方便之外,总的来说不如顺序存储灵活,性能也不如顺序存储结构好。

串的模式匹配

  子串的定位操作通常称为串的模式匹配。

朴素模式匹配算法(低效)
KMP模式匹配算法(推荐)
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值