Go语言循环遍历含有中文的字符串

在Go语言中,普通for循环遍历含有中文字符的字符串会出现乱码,因为得到的是byte类型,对应ASCII编码。而使用forrange循环,得到的是rune类型,对应Unicode编码,能正确处理中文。因此,处理中文字符串时推荐使用forrange。
摘要由CSDN通过智能技术生成

Go语言循环遍历含有中文字符的字符串

首先使用普通for循环遍历含有中文的字符串

	str := "hello,你好"
	for i := 0; i < len(str); i++ {
		fmt.Printf("%c", str[i])
	}

输出结果:

hello,ä½ å¥½

可见使用普通for循环遍历字符串中的中文字符发生了乱码。

然后我们使用Go语言中for range

	str := "hello,你好"
	for _, v := range str {
		fmt.Printf("%c", v)
	}

输出结果:

hello,你好

可见用for range对含有中文字符的字符串进行循环遍历就不会出现乱码的问题。中文字会正常输出。
那为什么使用for循环中文字符部分会出现乱码呢?

首先我们先来看Go语言中对字符的定义

字符在Go语言中分为两种:

  • 一种是unint8类型,或者叫byte型,代表了ASCII码的一个字符。
  • 另一种是rune类型,代表一个UTF-8字符。当需要处理中文、日文或者其他符合字符时,则需要用到rune类型。rune类型实际是一个int32.

使用fmt.Printf中的"%T"可以输出变量的实际类型,使用这个方法可以查看byte和rune的本来类型,代码如下:

    var a byte = 'a'
	fmt.Printf("%d %T\n", a, a)
	var b rune = '你'
	fmt.Printf("%d %T\n", b, b)

输出结果:

97 uint8
20320 int32

那普通for循环和for range两个循环出来的字符类型是什么呢?
测试:

for循环

	str := "hello,你好"
	for i := 0; i < len(str); i++ {
		fmt.Printf("%c,%T  ", str[i],str[i])
	}

输出结果:

h,uint8
e,uint8
l,uint8
l,uint8
o,uint8
,uint8
ä,uint8
½,uint8
,uint8
å,uint8
¥,uint8
½,uint8

for range

	str := "hello,你好"
	for _, v := range str {
		fmt.Printf("%c,%T \n", v, v)
	}

输出结果:

h,int32
e,int32
l,int32
l,int32
o,int32
,int32
你,int32
好,int32

可见,使用普通循环时,得到的类型是uint8,也就是byte类型。
使用for range循环时,得到的类型是int32,也就是rune类型。

因为使用普通for循环时,得到的类型是uint8,对应ASCII编码表,而中文字符在ASCII编码表中没有相对应的ID,那输出中文时就会出现乱码。
而在使用for range时,得到的类型时int32,对应Unicode编码表,中文字符在Unicode编码表中存在中文相对应的ID,输出正常。

总结:

  1. 使用普通循环时,得到的类型是uint8,对应ASCII字符集.
  2. 使用for range时,得到类型是int32,对应Unicode字符集.
  3. Go语言中byte和rune实质上就是uint8和int32类型。
  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值