【Go专家编程——常见数据结构的实现原理string】

1. 字符串的常见特性

  • 字符串使用Unicode编码存储字符,字符串长度是指Unicode编码所占的字节数,一个中文字符需要3个字节
  • string可能为空,但不会是nil
  • 字符串是不可修改的

1.1 用法

1)声明

var s1 string//此时s1是一个空字符串,不是nil
s1 = "Hello World"

s2 := "Hello World"

2)双引号和反单引号的区别
他们的区别在于对特殊字符的处理

  • 使用双引号表示字符串必须要卸载一行之内,否则需要用加号进行连接,而且对于换行符等需要明确写出
  • 使用反单引号后特殊字符不需要进行转义
//双引号
s := "Hi, \nthis is \"RainbowMango\"."
//如果使用单引号
s1 := `Hi,
this is "RainbowMango".`

3)字符串拼接
字符串可以使用加号进行拼接
s = s+ "a" + "b"
字符串凭借会触发内存分配及内存拷贝,单行语句拼接多个字符串只会触发一次内存分配。在拼接时会先计算字符串的长度再分配内存。

4)类型转换
项目中的数据经常需要再string和字节切片([]byte)之间转换
转换将会发生一次内存拷贝,会有一定的花销

func ByteToString(){
	b := []byte{'H','e','l','l','o'}
	s := string(b)//Hello
}
func StringToByte(){
	s := "Hello"
	b := []byte(s)//[72,101,108,108,111]
}

1.2 特点

1)UTF编码
string使用8比特字节的集合来存储字符,存储的是字符的UTF-8编码,例如每个汉字字符的UTF-8编码将占用多个字节。

字符串的长度是字节数,而不是字符数。

2)值不可修改

  • 字符串可以为空,但值不会是nil,但值不会是nil
  • 字符串不可以修改,不能通过下标方式修改字符串中的值
  • 字符串变量可以接受新的字符串赋值

2.实现原理

2.1 数据结构

源码在src/runtime/string.go
string在runtime包中是stringStruct类型,对外呈现为string类型

type stringStruct struct{
	//字符串的首地址
	str unsafe.Pointer
	//字符串的长度
	len int
}

在runtime包中使用函数gostringnocopy()来生成字符串。
字符串生成时,会先构建stringStruct对象,再转换成string,转换的源码如下:

func gostringnocopy(str *byte) string {
	//先构建stringStruct
	ss := stringStruct{str: unsafe.Pointer(str),len: findnull(str)}
	s := *(*string)(unsafe.Pointer(&ss))
	return s
}

2.2 字符串表示

  • 字符串使用Unicode编码存储字符
  • 对于英文字符来说,每个字符的Unicode编码只用一个字节即可表示。
  • 对于非ASCII字符来说,其Unicode编码可能需要由多个字节表示

2.3 字符串拼接

字符串拼接需要遍历两次数组

  • 第一次遍历会获得总的字符串长度,据此申请内存
  • 第二次遍历会把字符串逐个拷贝过去

伪代码如下:

func concatstrings(a []string) string {
	length := 0
	for _,str := range a{
		length += len(str)
	}
	// 分配内存,返回一个string和切片,二者共享内存空间
	s,b := rawstring(length)
	// string 无法修改,只能通过切片修改
	for _,str := range a{
		copy(b,str)
		b = b[len(str):]
	}
	return s
}

由于string是无法直接修改的,所以这里使用rawstring()方法初始化一个指定大小的string,同时返回一个切片,二者共享一块内存空间,后面向切片中拷贝数据,也就间接修改了string。

rawstring的伪代码如下:

// 生成一个新的string,返回的string和切片共享相同的空间
func rawstring(size int)(s string,b []){
	p:=mallocgc(uintptr(size), nil, false)
	
	stringStructOf(&s).str = p
	stringStructOf(&s).len = size
	//包装成slice对象
	*(*slice)(unsafe.Pointer(&b)) = slice(p, size, size)
	return
}

2.4 类型转换

2.4.1 []byte转string

byte切片可以很方便地转换成string

func GetStringBySlice(s []byte)string{
	return string(s)
}
  • 转换过程
  • 根据切片的长度申请内存空间(会优先使用一个固定大小的buf,长度不够时才会申请新的内存),假设内存地址为p,长度为len
  • 构建string(string.str = p;string.len = len)
  • 拷贝数据(切片中的数据拷贝到新申请的内存空间)

2.4.2 string转[]byte

string也可以很方便地转换成byte切片

func GetSliceByString(str string)[]byte{
	return []byte(str)
}
  • 转换过程
  • 申请切片内存空间
  • 将string拷贝到切片

2.4.3 编译优化

byte切片转换成string的场景很多,处于性能上的考虑,在只是临时需要字符串的场景下,byte切片转换成string时并不会拷贝内存,而是直接返回一个string,这个string的指针(string.str)指向切片的内存。

  • 使用m[string(b)]查找map(map的key的类型为string时,临时把切片b转成string)
  • 字符串拼接:如"<"+string(b)+">"
  • 字符串比较时:string(b) == "foo"

由于只是临时将byte切片转换成string,也就避免了因byte切片内容修改而导致string数据变化的问题,所以此时可以不必拷贝内存。

3.小结

  • 为什么字符串不允许修改
    • string通常指向字符串字面量,而字符串字面量的存储位置是只读段,而不是堆或栈,所以才有了string不可修改的约定
    • go中string只有一个内存指针,十分轻量,方便地进行传递。
  • string和[]byte如何取舍
    • string擅长的场景
      • 需要字符串比较的场景
      • 不需要nil字符串的场景
    • []byte擅长的场景
      • 修改字符串的场景,尤其是修改颗粒为1个字节
      • 函数返回值,需要用nil表示含义的场景
      • 需要切片操作的场景
    • 偏底层还是[]byte使用得更多
    • 实际应用中还是大量使用string,因为string更为直观
  • 15
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值