1. 字符串的常见特性
- 字符串使用Unicode编码存储字符,字符串长度是指Unicode编码所占的字节数,一个中文字符需要3个字节
- string可能为空,但不会是nil
- 字符串是不可修改的
1.1 用法
1)声明
var s1 string//此时s1是一个空字符串,不是nil
s1 = "Hello World"
s2 := "Hello World"
2)双引号和反单引号的区别
他们的区别在于对特殊字符的处理
- 使用双引号表示字符串必须要卸载一行之内,否则需要用加号进行连接,而且对于换行符等需要明确写出
- 使用反单引号后特殊字符不需要进行转义
//双引号
s := "Hi, \nthis is \"RainbowMango\"."
//如果使用单引号
s1 := `Hi,
this is "RainbowMango".`
3)字符串拼接
字符串可以使用加号进行拼接
s = s+ "a" + "b"
字符串凭借会触发内存分配及内存拷贝,单行语句拼接多个字符串只会触发一次内存分配。在拼接时会先计算字符串的长度再分配内存。
4)类型转换
项目中的数据经常需要再string和字节切片([]byte)之间转换
转换将会发生一次内存拷贝,会有一定的花销
func ByteToString(){
b := []byte{'H','e','l','l','o'}
s := string(b)//Hello
}
func StringToByte(){
s := "Hello"
b := []byte(s)//[72,101,108,108,111]
}
1.2 特点
1)UTF编码
string使用8比特字节的集合来存储字符,存储的是字符的UTF-8编码,例如每个汉字字符的UTF-8编码将占用多个字节。
字符串的长度是字节数,而不是字符数。
2)值不可修改
- 字符串可以为空,但值不会是nil,但值不会是nil
- 字符串不可以修改,不能通过下标方式修改字符串中的值
- 字符串变量可以接受新的字符串赋值
2.实现原理
2.1 数据结构
源码在src/runtime/string.go
string在runtime包中是stringStruct类型,对外呈现为string类型
type stringStruct struct{
//字符串的首地址
str unsafe.Pointer
//字符串的长度
len int
}
在runtime包中使用函数gostringnocopy()来生成字符串。
字符串生成时,会先构建stringStruct对象,再转换成string,转换的源码如下:
func gostringnocopy(str *byte) string {
//先构建stringStruct
ss := stringStruct{str: unsafe.Pointer(str),len: findnull(str)}
s := *(*string)(unsafe.Pointer(&ss))
return s
}
2.2 字符串表示
- 字符串使用Unicode编码存储字符
- 对于英文字符来说,每个字符的Unicode编码只用一个字节即可表示。
- 对于非ASCII字符来说,其Unicode编码可能需要由多个字节表示
2.3 字符串拼接
字符串拼接需要遍历两次数组
- 第一次遍历会获得总的字符串长度,据此申请内存
- 第二次遍历会把字符串逐个拷贝过去
伪代码如下:
func concatstrings(a []string) string {
length := 0
for _,str := range a{
length += len(str)
}
// 分配内存,返回一个string和切片,二者共享内存空间
s,b := rawstring(length)
// string 无法修改,只能通过切片修改
for _,str := range a{
copy(b,str)
b = b[len(str):]
}
return s
}
由于string是无法直接修改的,所以这里使用rawstring()方法初始化一个指定大小的string,同时返回一个切片,二者共享一块内存空间,后面向切片中拷贝数据,也就间接修改了string。
rawstring的伪代码如下:
// 生成一个新的string,返回的string和切片共享相同的空间
func rawstring(size int)(s string,b []){
p:=mallocgc(uintptr(size), nil, false)
stringStructOf(&s).str = p
stringStructOf(&s).len = size
//包装成slice对象
*(*slice)(unsafe.Pointer(&b)) = slice(p, size, size)
return
}
2.4 类型转换
2.4.1 []byte转string
byte切片可以很方便地转换成string
func GetStringBySlice(s []byte)string{
return string(s)
}
- 转换过程
- 根据切片的长度申请内存空间(会优先使用一个固定大小的buf,长度不够时才会申请新的内存),假设内存地址为p,长度为len
- 构建string(string.str = p;string.len = len)
- 拷贝数据(切片中的数据拷贝到新申请的内存空间)
2.4.2 string转[]byte
string也可以很方便地转换成byte切片
func GetSliceByString(str string)[]byte{
return []byte(str)
}
- 转换过程
- 申请切片内存空间
- 将string拷贝到切片
2.4.3 编译优化
byte切片转换成string的场景很多,处于性能上的考虑,在只是临时需要字符串的场景下,byte切片转换成string时并不会拷贝内存,而是直接返回一个string,这个string的指针(string.str)指向切片的内存。
- 使用m[string(b)]查找map(map的key的类型为string时,临时把切片b转成string)
- 字符串拼接:如
"<"+string(b)+">"
- 字符串比较时:
string(b) == "foo"
由于只是临时将byte切片转换成string,也就避免了因byte切片内容修改而导致string数据变化的问题,所以此时可以不必拷贝内存。
3.小结
- 为什么字符串不允许修改
- string通常指向字符串字面量,而字符串字面量的存储位置是只读段,而不是堆或栈,所以才有了string不可修改的约定
- go中string只有一个内存指针,十分轻量,方便地进行传递。
- string和[]byte如何取舍
- string擅长的场景
- 需要字符串比较的场景
- 不需要nil字符串的场景
- []byte擅长的场景
- 修改字符串的场景,尤其是修改颗粒为1个字节
- 函数返回值,需要用nil表示含义的场景
- 需要切片操作的场景
- 偏底层还是[]byte使用得更多
- 实际应用中还是大量使用string,因为string更为直观
- string擅长的场景