Golang下的unicode与字符编码

最新推荐文章于 2024-06-13 00:54:18 发布

BGBiao

最新推荐文章于 2024-06-13 00:54:18 发布

阅读量4.1k

点赞数 1

分类专栏：运维 SRE golang 文章标签： golang unicode

本文链接：https://blog.csdn.net/weichuangxxb/article/details/106441884

版权

本文介绍了Golang中Unicode和字符编码的相关知识，包括Go语言字符编码的基础，ASCII编码，以及string类型的底层存储机制。Go语言源码必须遵循Unicode的UTF-8编码格式，字符串底层是一个UTF-8编码值的字节序列。通过`range`遍历字符串时，会逐一获取Unicode字符，但相邻字符的索引可能不连续，取决于前一个字符的字节数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景: 在我们使用Golang进行开发过程中，总是绕不开对字符或字符串的处理，而在Golang语言中，对字符和字符串的处理方式可能和其他语言不太一样，比如Python或Java类的语言，本篇文章分享一些Golang语言下的Unicode和字符串编码。

Go语言字符编码

注意: 在Golang语言中的标识符可以包含 " 任何Unicode编码可以标识的字母字符 "。

被转换的整数值应该可以代表一个有效的 Unicode 代码点，否则转换的结果就将会是 “�”，即：一个仅由高亮的问号组成的字符串值。

另外，当一个 string 类型的值被转换为 []rune 类型值的时候，其中的字符串会被拆分成一个一个的 Unicode 字符。

显然，Go 语言采用的字符编码方案从属于 Unicode 编码规范。更确切地说，Go 语言的代码正是由 Unicode 字符组成的。Go 语言的所有源代码，都必须按照 Unicode 编码规范中的 UTF-8 编码格式进行编码。

换句话说，Go 语言的源码文件必须使用 UTF-8 编码格式进行存储。如果源码文件中出现了非 UTF-8 编码的字符，那么在构建、安装以及运行的时候，go 命令就会报告错误 " illegal UTF-8 encoding "。

ASCII 编码

ASCII 编码方案使用单个字节（byte）的二进制数来编码一个字符。标准的 ASCII 编码用一个字节的最高比特（bit）位作为奇偶校验位，而扩展的 ASCII 编码则将此位也用于表示字符。ASCII 编码支持的可打印字符和控制字符的集合也被叫做 ASCII 编码集。

我们所说的 Unicode 编码规范，实际上是另一个更加通用的、针对书面字符和文本的字符编码标准。它为世界上现存的所有自然语言中的每一个字符，都设定了一个唯一的二进制编码。

它定义了不同自然语言的文本数据在国际间交换的统一方式，并为全球化软件创建了一个重要的基础。

Unicode 编码规范以 ASCII 编码集为出发点，并突破了 ASCII 只能对拉丁字母进行编码的限制。它不但提供了可以对世界上超过百万的字符进行编码的能力，还支持所有已知的转义序列和控制代码。

我们都知道，在计算机系统的内部，抽象的字符会被编码为整数。这些整数的范围被称为代码空间。在代码空间之内，每一个特定的整数都被称为一个代码点。

一个受支持的抽象字符会被映射并分配给某个特定的代码点，反过来讲，一个代码点总是可以被看成一个被编码的字符。

Unicode 编码规范通常使用十六进制表示法来表示 Unicode 代码点的整数值，并使用 “U+” 作为前缀。比如，英文字母字符 “a” 的 Unicode 代码点是 U+0061。在 Unicode 编码规范中，一个字符能且只能由与它对应的那个代码点表示。

Unicode 编码规范现在的最新版本是 11.0，并会于 2019 年 3 月发布 12.0 版本。而 Go 语言从 1.10 版本开始，已经对 Unicode 的 10.0 版本提供了全面的支持。对于绝大多数的应用场景来说，这已经完全够用了。

Unicode 编码规范提供了三种不同的编码格式，即：UTF-8、UTF-16 和 UTF-32。其中的 UTF 是 UCS Transformation Format 的缩写。而 UCS 又是 Universal Character Set 的缩写，但也可以代表 Unicode Character Set。所以，UTF 也可以被翻译为 Unicode 转换格式。它代表的是字符与字节序列之间的转换方式。

在这几种编码格式的名称中，