ASCII，Unicode 和 UTF-8

最新推荐文章于 2024-12-26 15:01:00 发布

狒狒你呐

最新推荐文章于 2024-12-26 15:01:00 发布

阅读量225

点赞数

CC 4.0 BY-SA版权

分类专栏： JavaSE 文章标签： java

原文链接：https://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html

JavaSE 专栏收录该内容

82 篇文章

订阅专栏

本文详细介绍了ASCII、Unicode和UTF-8字符编码标准。ASCII码包含128个字符，UTF-8是一种变长编码，根据字符Unicode值决定字节数，从1到4个字节不等。Unicode则覆盖了全球所有符号，定义了每个符号的二进制数值。以汉字'严'为例，其Unicode编码为4E25，在UTF-8中编码为E4B8A5。

ASCII

ASCII 码一共规定了128个字符的编码,对英语字符与二进制位之间的关系，做了统一规定。

简体中文常见的编码方式是 GB2312，使用两个字节表示一个汉字，所以理论上最多可以表示 256 x 256 = 65536 个符号。

Unicode

Unicode将世界上所有的符号都对应一个二进制数字。如果一定要问一个Unicode码占几个字节？回答是2个。
但这样问是不对的，Unicode只是规定了字符的二进制数，至于怎么编码实现（utf-8）这个值，才涉及到占几个字节。

UTF-8 是 Unicode 的实现方式之一

UTF-8 最大的一个特点，就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号，根据不同的符号而变化字节长度。

UTF-8 的编码规则很简单，只有二条：

1）对于单字节的符号，字节的第一位设为0，后面7位为这个符号的 Unicode 码。因此对于英语字母，UTF-8 编码和 ASCII 码是相同的。

2）对于n字节的符号（n > 1），第一个字节的前n位都设为1，第n + 1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的 Unicode 码。

下表总结了编码规则，字母x表示可用编码的位。

跟据上表，解读 UTF-8 编码非常简单。如果一个字节的第一位是0，则这个字节单独就是一个字符；如果第一位是1，则连续有多少个1，就表示当前字符占用多少个字节。

下面，还是以汉字严为例，演示如何实现 UTF-8 编码。

严的 Unicode 是4E25（100111000100101），根据上表，可以发现4E25处在第三行的范围内（0000 0800 - 0000 FFFF），因此严的 UTF-8 编码需要三个字节，即格式是1110xxxx 10xxxxxx 10xxxxxx。然后，从严的最后一个二进制位开始，依次从后向前填入格式中的x，多出的位补0。这样就得到了，严的 UTF-8 编码是11100100 10111000 10100101，转换成十六进制就是E4B8A5。