字符编码的发展历程

最新推荐文章于 2022-08-05 23:18:35 发布

白仕豪

最新推荐文章于 2022-08-05 23:18:35 发布

阅读量719

点赞数

本文链接：https://blog.csdn.net/qq_41947420/article/details/80361977

版权

字符编码的发展历程

阶段1:
计算机只认识数字,我们在计算机中的一切数据都是以数字表示,因为英文符号有限
所以规定使用的字节的最高位为0,每一个字节都是以0-127之间的数字来表示,比如A对应65,a对应97
这就是美国标准信息交换码,ASCII

阶段2:
随着计算机在全球的普及,很多国家和地区都把自己的字符引入到计算机,比如汉字
此时发现一个字节能表示的数字范围太小,不能包含所有的中文汉字,那么久规定两个字节表示一个汉字
规定:原有的ASCII字符的编码保持不变,仍然使用一个字节表示英文符号,为了区别一个中文字符与两个ASCII字符码
中文字符的每个字节最高位规定为1(中文的二进制数是负数),这个规范就是GB2312编码
后来在GB2312的基础上增加了更多的中文字符,比如汉字,也就出现了GBK

阶段3:
新的问题.在中国是认识汉字的,但是如果把汉字传递给其他的国家,该国家的码表中没有收录汉字,就会显示其他符号或乱码
为了解决各个国家因为本地化字符编码带来的影响,所以就把全世界所有的字符统一编码,UniCode码出现了
此时,某一个字符在全世界任何地方都是固定的,比如"哥",在任何地方都是以十六进制数54E5表示
UniCode的编码字符都占有两个字节

----------------------------------------------------------------------------------------------------
常见的字符集:
ASCII码:占一个字节,只能包含128个符号,不能表示汉字
ISO-8859-1:(Latin-1);占一个字节,收录西欧语言,不能表示汉字
ANSI:占两个字节,在简体中文的操作系统中,ANSI就是指的是GB2312
GB2312/GBK/GB18030/ANSI:占两个字节 ,可以把这四种字符集看成一种字符集
UTF-8:是一种针对UniCode的可变长度字符编码,又称万国码,是UniCode的实现方式之一
编码中的第一个字节仍与ASCII码兼容,这使得原来处理ASCII字符的软件无须或做少部分修改,即可继续使用
因此,它逐渐成为电子邮件,网页及其其他存储或传送文字的应用中,优先使用的编码.互联网工程小组(IETF)要求所有的互联网
协议都必须支持UTF-8编码

GBK字符集比UTF-8字符集的效率高.因为占用的字节小,但是它不支持万国语言.所以一般使用UTF-8字符集

UTF-8 BOM:是MS搞出来的编码,默认占3个字节,不建议使用这个
----------------------------------------------------------------------------------------------------
存储字母,数字和汉字
存储字母和数字无论是什么字符集都占一个字节
存储汉字:GBK家族占用两个字节,UTF-8家族占3个字节
----------------------------------------------------------------------------------------------------
不能使用单字节的字符集(ASCII/ISO-8859-1):存储中文