字符编码笔记：ASCII，Unicode 和 UTF-8

最新推荐文章于 2021-09-07 14:26:44 发布

桑来93

最新推荐文章于 2021-09-07 14:26:44 发布

阅读量183

点赞数

分类专栏： [程序员的自我修养]

25 篇文章 2 订阅

订阅专栏

多种编码方式，同一个二进制文件被解释为不同的符号。因此，要想打开一个文本文件，必须知道其编码方式。否则会出现乱码。
如果有一种编码，将世界上所有的符号都纳入其中。每一个符号都给予一个独一无二的编码，那么乱码问题就会消失。这就是 Unicode，就像它的名字都表示的，这是一种所有符号的编码。

互联网的普及，强烈要求出现一种统一的编码方式。UTF-8 就是在互联网上使用最广的一种 Unicode 的实现方式。
UTF-8 最大的一个特点，就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号，根据不同的符号而变化字节长度。
UTF-8 的编码规则很简单，只有二条：
- 对于单字节的符号，字节的第一位设为0，后面7位为这个符号的 Unicode 码。因此对于英语字母，UTF-8 编码和 ASCII 码是相同的。
- 对于n字节的符号（n > 1），第一个字节的前n位都设为1，第n + 1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的 Unicode 码。
下表总结了编码规则，字母x表示可用编码的位。