LingKangSg的go学习日记8之rune byte

sgxg

已于 2023-09-10 20:58:28 修改

阅读量50

点赞数

分类专栏： go学习日记文章标签： golang 学习开发语言

于 2023-09-10 20:54:16 首次发布

本文链接：https://blog.csdn.net/m0_58064486/article/details/132795309

版权

9 篇文章 0 订阅

订阅专栏

基本概念

在 Go 语言中，`byte` 和 `rune` 是两种不同的数据类型，用于处理字符和字节数据。

1. `byte` 类型：
- `byte` 是 Go 语言中的内置类型，它是一个无符号的整数类型，占用 1 个字节（8 位）的存储空间。
- `byte` 类型通常用于表示 ASCII 字符或二进制数据，范围为 0 到 255 之间。

如果用byte表示汉字，通常是utf-8编码格式（unicode的一种），用3个字节表示即3位byte表示

2. `rune` 类型：
- `rune` 也是 Go 语言中的内置类型，它是一个有符号的整数类型，占用 4 个字节（32 位）的存储空间。
- `rune` 类型用于表示 Unicode 字符，它可以表示任何 Unicode 码点，范围从 U+0000 到 U+10FFFF。

虽然 `byte` 和 `rune` 都可以用来表示字符，但它们在存储和表示方式上有所不同。`byte` 通常用于处理字节数据和 ASCII 字符，而 `rune` 用于处理 Unicode 字符，包括多字节的字符。

在 Go 语言中，字符串是由 `byte` 组成的字节数组，而使用 `[]rune` 类型可以处理字符串中的 Unicode 字符，每个 `rune` 表示一个字符。

需要根据具体的需求选择使用 `byte` 还是 `rune`，以便正确地处理字符和字节数据。

ascii 和 unicode

ASCII（American Standard Code for Information Interchange）是最早的字符编码标准，定义了 128 个字符的编码，包括大写和小写字母、数字、标点符号和一些控制字符。ASCII 字符集使用 7 位编码，每个字符占用一个字节。

Unicode 是一种更为全面的字符编码标准，旨在包含地球上所有的字符。Unicode 字符集定义了每个字符的唯一码点，使每个字符都具有唯一的标识。

Unicode 字符集的前 128 个码点（0x0000 到 0x007F）与 ASCII 字符集完全兼容，也就是说，这些码点的字符与 ASCII 字符集中的对应字符是一致的。因此，基本拉丁字母（包括大写和小写字母）在 Unicode 中的编码与 ASCII 中的编码是相同的。

tips：

UTF（Unicode Transformation Format）则是一种编码方式，用于将 Unicode 字符集中的字符编码为字节序列。UTF-8、UTF-16 和 UTF-32 是常见的 UTF 编码格式。

关注

专栏目录