最近在学习Golang,这篇文章的主要目的是讨论在学习过程中遇到的一些关于Golang字符串的小问题。由于Golang中字符的存储方式较为特殊,所以单独拿来讨论一下。
1. Golang中字符的定义
首先我们都知道,字符串由一个或多个字符构成,字符串中的每一个元素叫做字符,在遍历或者单个获取字符串元素时可以获得字符。
继承于C,在Golang中,字符串用双引号表示,字符用单引号表示,和python不同,这是要严格遵循的。
而和C不同的是,Golang中的字符有以下两种类型:
- 一种是 byte 类型,或者叫 uint8 类型,代表了 ASCII 码的一个字符。
- 另一种是 rune 类型,用来定义 UTF-8 字符。当需要处理中文、日文等非 ASCII 字符时,就需要用到 rune 类型。rune 类型实际 int32。
2. 提取字符串中的字符
想要提取字符串中的字符,对于字符串中的 ASCII 类的字符,可以直接根据下标进行提取即可;
想要单独获得一个字符串中包含的中文等 UTF-8 字符,如果直接根据下标提取就会出现问题,其类型会变为byte(uint8),无法得到真正的值。对于这种情况,我们应该先将字符串转换成 rune 类型的数组,然后才能根据下标获得 非ASCII 码字符真正的值,而此时,那些 ASCII 码字符也会转换为 rune 类型。代码如下:
s1 := "hello你好こんにちは" // 定义一个字符串
fmt.Println("字符串s1:", s1) // 输出字符串s1
fmt.Printf("string中单个字符的类型:%T %T %T\n", s1[0], s1[5], s1[7]) // 输出字符的类型
fmt.Println("直接输出单个字符:", s1[0], s1[5], s1[7]) // 此时输出的是相应的ASCII值
fmt.Printf("输出单个字符:%c %c %c\n", s1[0], s1[5], s1[7]) // 直接通过下标获得单个字符的值时,由于是uint8类型,无法获得非ASCII的原始值
s2 := []rune(s1) // 将string类型转换为rune数组
fmt.Println("\n将字符串转换成rune数组之后:")
fmt.Printf("rune数组s2:%c\n", s2) // 输出rune数组s2
fmt.Printf("转换后数组中元素的类型:%T %T %T\n", s2[0], s2[5], s2[7]) // 输出转换后的字符的类型
fmt.Println("直接输出转换后的字符:", s2[0], s2[5], s2[7]) // 输出各字符在utf-8中对应的值
fmt.Printf("输出单个字符:%c %c %c\n", s2[0], s2[5], s2[7]) // 成功得到字符串中各类字符的值
运行后输出情况如下图,