字符编码问题——GB2312、ASCII、Unicode、utf-8之间的联系

最新推荐文章于 2022-03-21 00:07:43 发布

Virtual_box

最新推荐文章于 2022-03-21 00:07:43 发布

阅读量593

点赞数

文章标签：编码 unicode utf-8 ascii gb2312

本文链接：https://blog.csdn.net/Virtual_box/article/details/55258626

版权

计算机，顾名思义，就是能够进行计算的机器。由于计算机只能处理数字，如果要处理文本，就必须先把文本转换为数字才能处理。最早的计算机在设计时采用8个比特（bit）作为一个字节（byte），所以，一个字节能表示的最大的整数就是255（二进制11111111=十进制255），如果要表示更大的整数，就必须用更多的字节。比如两个字节可以表示的最大整数是65535，4个字节可以表示的最大整数是4294967295。

由于计算机是美国人发明的，所以刚开始的时候，计算机中只能存储127个字符，也就是大小写英文字母、阿拉伯数字以及一些英文符号，这些字符在计算中的存储是作为ASCII码进行存储的，对应着ASCII编码表。比如说，英文字母“A”对应的ASCII码为65，每个字符对一个1个字节。

然而随着计算机的普及，全世界各国越来越多的人开始使用计算机。所以计算机只能存储英文字母、数字以及一些常用字符已经不能满足需要了。在中国，计算机还需要存储中文汉字，所以需要对中文汉字进行编码，但是又不能与ASCII中已经存在的编码冲突，所以中国制定了GB2312编码，每个中文至少占用2个字节。
可是，全世界有上百种语言，日本把日文编到Shift_JIS里，韩国把韩文编到Euc-kr里，各国有各国的标准，就会不可避免地出现冲突，结果就是，在多语言混合的文本中，显示出来会有乱码。

因此，Unicode应运而生。Unicode把所有语言都统一到一套编码里，这样就不会再有乱码问题了。Unicode的标准也在不断发展，但最常用的是用两个字节表示一个字符（如果要用到非常偏僻的字符，就需要4个字节）。现代操作系统和大多数编程语言都直接支持Unicode。

所以，在Unicode编码中，大多数字符都用两个字节表示，比如字符“A”，用Unicode编码表示，为00000000 01000001，占用两个字节，而用ASCII编码为01000001，对比后发现，字符“A”的Unicode编码与ASCII编码相似，在其ASCII编码前面补一个字节0，就是Unicode编码。可是新的问题又出现了：如果统一成Unicode编码，乱码问题从此消失了。但是，如果你写的文本基本上全部是英文的话，用Unicode编码比ASCII编码需要多一倍的存储空间，在存储和传输上就十分不划算。
所以，本着节约的精神，又出现了把Unicode编码转化为“可变长编码”的UTF-8编码。UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节，常用的英文字母被编码成1个字节，汉字通常是3个字节，只有很生僻的字符才会被编码成4-6个字节。如果你要传输的文本包含大量英文字符，用UTF-8编码就能节省空间。

Virtual_box

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
字符编码问题——GB2312、ASCII、Unicode、utf-8之间的联系

计算机，顾名思义，就是能够进行计算的机器。由于计算机只能处理数字，如果要处理文本，就必须先把文本转换为数字才能处理。最早的计算机在设计时采用8个比特（bit）作为一个字节（byte），所以，一个字节能表示的最大的整数就是255（二进制11111111=十进制255），如果要表示更大的整数，就必须用更多的字节。比如两个字节可以表示的最大整数是65535，4个字节可以表示的最大整数是4294967295
复制链接

扫一扫