计算机中的各种字符编码

最新推荐文章于 2022-04-23 13:30:00 发布

嗷嗷_

最新推荐文章于 2022-04-23 13:30:00 发布

阅读量1.4k

点赞数

分类专栏： java学习文章标签：编码系统

本文链接：https://blog.csdn.net/qq_35218635/article/details/122912645

版权

java学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

本文介绍了字符编码的历史和发展，包括ASCII编码、GB2312、Unicode以及UTF-8编码。ASCII编码用于英文字符，GB2312为汉字编码，Unicode旨在统一全球语言编码，而UTF-8作为一种变长编码，既能节省空间，又能兼容ASCII，且具有良好的容错能力，常用于数据传输。

摘要由CSDN通过智能技术生成

在早期的计算机系统中，为了给字符编码，美国国家标准学会（American National Standard Institute：ANSI）制定了一套英文字母、数字和常用符号的编码，它占用一个字节，编码范围从0到127，最高位始终为0（一个字节8位，最高位是0，还剩7位，也就是2^7=127），称为ASCII编码。例如，字符'A'的编码是0x41，字符'1'的编码是0x31。

如果要把汉字也纳入计算机编码，很显然一个字节是不够的。GB2312标准使用两个字节表示一个汉字，其中第一个字节的最高位始终为1，以便和ASCII编码区分开。例如，汉字'中'的GB2312编码是0xd6d0。

类似的，日文有Shift_JIS编码，韩文有EUC-KR编码，这些编码因为标准不统一，同时使用，就会产生冲突。

为了统一全球所有语言的编码，全球统一码联盟发布了Unicode编码，它把世界上主要语言都纳入同一个编码，这样，中文、日文、韩文和其他语言就不会冲突。

那我们经常使用的UTF-8又是什么编码呢？因为英文字符的Unicode编码高字节总是00，包含大量英文的文本会浪费空间，所以，出现了UTF-8编码，它是一种变长编码，用来把固定长度的Unicode编码变成1～4字节的变长编码。通过UTF-8编码，英文字符'A'的UTF-8编码变为0x41，正好和ASCII码一致，而中文'中'的UTF-8编码为3字节0xe4b8ad。

UTF-8编码的另一个好处是容错能力强。如果传输过程中某些字符出错，不会影响后续字符，因为UTF-8编码依靠高字节位来确定一个字符究竟是几个字节，它经常用来作为传输编码。

总结：

ASCII编码：一个字节（0-127，最高位固定为0），只包含英文字母、数字和常用符号。

GB2312标准：两个字节，最高位固定为1，从而与 ASCII编码区别开来，将汉字纳入编码中。

Unicode编码：统一全球所有语言的编码，把世界上主要语言都纳入同一个编码，需要两个或更多字节表示。

UTF-8编码：变长编码，用来把固定长度的Unicode编码变成1～4字节的变长编码。容错能力强，经常用来作为传输编码。