字符编码_0x12345*17-CSDN博客

本文链接：https://blog.csdn.net/clygo9/article/details/115314728

本文介绍了字符编码的历史，从最初的ASCII编码到解决多语言问题的GB2312，再到统一全球字符的Unicode。接着详细讲解了Unicode的存储方案，包括UTF-8、UTF-16和UTF-32的优缺点。重点讨论了UTF-8的变长编码方式及其解析过程，以及如何通过前缀识别不同的编码格式。

摘要由CSDN通过智能技术生成

编码就是将一个字节和要编码的字符连接起来。最开始美国人发明的是ASCII编码，ASCII码一个字节对应一个字符，即只能编码0-255，一共255个字符（0不占），所以只能编写英文字母和一些字符，这些字符对美国人来说是够用的，但是对亚洲这些象形文字国家来说就不够了，所以就衍生出了GB2312、GB2312-80编码专门用来表示中文。

GB2312中的汉字是由两个字节组成，例如：中为 D6 D0，国为 B9 FA。但GB2312还是存在不足，即中文的编码拿给其它国家的人，让他们解码时，有可能就成了乱码，不能翻译成他们的语言。所以由此就衍生了Unicode编码。

Unicode编码的原理时，全世界所有字符都有一个唯一的对应的编码。Unicode编码的编码范围为：0-0x10FFFF，可以容纳100多万个符号。

Unicode是字符集，它是字符于字节的转换表，但是在计算机中是如何存储的呢？

着就引出了三种存储方案：UTF-8、UTF-16、UTG-32

UTF-16：所有字符以两个字节为单位，例如：“中”为：0x12345，对应到utf-16中去就是0x00 01 23 45，也就是说用了两个单位来存储中这个字符，这样的好处是解码时很好切，每隔16位切一刀，然后对应Unicode字符集翻译出来就可以了，但缺点也很明显，即会浪费空间，因为就像刚才举的例子开始就浪费了（00 0）三个字节，那里存储了无意义的内容，在网络传输中，自然是传输的内容越少越好，所以可以用UTF-8来存储。

UTF-8：变长的存储方案。（一个字节能存下的用一个字节，两个字节能存下就用两个，三个字节能存下就用三个），缺点是解析困难。

①000000 - 00007F 0XXXXXXX（一个字节）

②000080 - 0007FF 110XXXXX 10XXXXXX（两个字节）

③000800 - 00FFFF 1110XXXX 10XXXXXX 10XXXXXX

④010000 - 10FFFF 11110XXX 10XXXXXX 10XXXXXX 10XXXXXX

左边对应的是unicode字符集的内容，右边对应的是utf-8字符编码，所以当字符在unicode字符集在①时，只需要一个字节，如果字符在②字符集就用两个字节。

例如：“A中”-》（utf-8）00000000h：EF EB BF 41 E4 B8 AD

其中前三个字节先不管，41对应着A，因为A的编码在①中；“中”在Unicode字符集中对应的是（4E 2D）->(二进制) 01001110 00101101 ，E4 B8 AD-》（二进制）11100100 10111000 10101101，将二进制带入③中去掉首部二进制变为0100 111000 101101，就和前面的Unicode字符集中对应起来了。

解析utf-8：根据前缀（例如：1110， 11110）

解析时如何判断utf-8、utf-16、utf-32：根据解析时的前缀

LE表示小端存储、BE表示大端存储。