Go语言如何处理含中文的字符串

文章讲述了在Go语言中,计算包含中文字符的字符串长度时,由于UTF-8编码的关系,常规的len()函数可能得到错误的结果。作者介绍了如何使用`unicode/utf8`库的`RuneCountInString`函数来准确计算字符数,以及如何处理rune类型切片以提取单个字符。
摘要由CSDN通过智能技术生成

我们求字符串长度的时候一般使用len(s),但如果对含中文的字符串使用,长度会不符合我们的预期。

package main
import (
    "fmt"
)
func main() {
    const s = "你好,中文!"
    fmt.Println(len(s))
}

结果如下:

18

但是字符串中只有6个字符。

这是因为在Go语言中,字符串是不可变的字节序列,而在UTF-8编码中,一个中文字符通常由多个字节表示。

实验代码:

package main
import (
    "fmt"
)
func main() {
    const s = "你好,中文!"
	fmt.Println(s)
	for i := 0; i < len(s); i++ {
		fmt.Print(s[i], " ")
	}
	fmt.Println()
}

结果如下:

你好,中文!
228 189 160 229 165 189 239 188 140 228 184 173 230 150 135 239 188 129

如果我们想正确求出含中文的字符串的长度,那么我们需要使用unicode/utf8库的RuneCountInString(s)

示例如下:

package main
import (
    "fmt"
    // 导入unicode/utf8
    "unicode/utf8"
)
func main() {
    const s = "你好,中文!"
    // 计算字符长度
    fmt.Println("Rune Count:", utf8.RuneCountInString(s))
}

结果:

Rune Count: 6

这里的Rune是Go中字符的概念,可以查看Strings, bytes, runes and characters in Go进一步了解。

如果想提取字符,可以将字符串string类型的变量转为rune类型的切片。

package main
import (
    "fmt"
    "unicode/utf8"
)
func main() {
    const s = "你好,中文!"
	firstRune := []rune(s)
	fmt.Printf("%c\n", firstRune[:2])
    fmt.Printf("%c\n", firstRune[2])
}

结果:

[你 好]
好

参考:Go by Example 中文版: 字符串和rune类型

  • 44
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值