字符编码的发展历程

字符编码的发展历程


阶段1:
计算机只认识数字,我们在计算机中的一切数据都是以数字表示,因为英文符号有限
所以规定使用的字节的最高位为0,每一个字节都是以0-127之间的数字来表示,比如A对应65,a对应97
这就是美国标准信息交换码,ASCII


阶段2:
随着计算机在全球的普及,很多国家和地区都把自己的字符引入到计算机,比如汉字
此时发现一个字节能表示的数字范围太小,不能包含所有的中文汉字,那么久规定两个字节表示一个汉字
规定:原有的ASCII字符的编码保持不变,仍然使用一个字节表示英文符号,为了区别一个中文字符与两个ASCII字符码
中文字符的每个字节最高位规定为1(中文的二进制数是负数),这个规范就是GB2312编码
后来在GB2312的基础上增加了更多的中文字符,比如汉字,也就出现了GBK


阶段3:
新的问题.在中国是认识汉字的,但是如果把汉字传递给其他的国家,该国家的码表中没有收录汉字,就会显示其他符号或乱码
为了解决各个国家因为本地化字符编码带来的影响,所以就把全世界所有的字符统一编码,UniCode码出现了
此时,某一个字符在全世界任何地方都是固定的,比如"哥",在任何地方都是以十六进制数54E5表示
UniCode的编码字符都占有两个字节


----------------------------------------------------------------------------------------------------
常见的字符集:
ASCII码:占一个字节,只能包含128个符号,不能表示汉字
ISO-8859-1:(Latin-1);占一个字节,收录西欧语言,不能表示汉字
ANSI:占两个字节,在简体中文的操作系统中,ANSI就是指的是GB2312
GB2312/GBK/GB18030/ANSI:占两个字节      ,可以把这四种字符集看成一种字符集
UTF-8:是一种针对UniCode的可变长度字符编码,又称万国码,是UniCode的实现方式之一
编码中的第一个字节仍与ASCII码兼容,这使得原来处理ASCII字符的软件无须或做少部分修改,即可继续使用
因此,它逐渐成为电子邮件,网页及其其他存储或传送文字的应用中,优先使用的编码.互联网工程小组(IETF)要求所有的互联网
协议都必须支持UTF-8编码


GBK字符集比UTF-8字符集的效率高.因为占用的字节小,但是它不支持万国语言.所以一般使用UTF-8字符集


UTF-8 BOM:是MS搞出来的编码,默认占3个字节,不建议使用这个
----------------------------------------------------------------------------------------------------
存储字母,数字和汉字
存储字母和数字无论是什么字符集都占一个字节
存储汉字:GBK家族占用两个字节,UTF-8家族占3个字节
----------------------------------------------------------------------------------------------------
不能使用单字节的字符集(ASCII/ISO-8859-1):存储中文
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值