字符编码的发展史

请添加图片描述

一.

我们都知道,计算机只能处理数字,即0和1,如果要处理文本,就必须先把文本转换为数字才能处理。

  1. 字节是计算机存储数据的基本单位!
  2. 字符是人类文明创造的符号,汉字、英文字母、标点符号、特殊符号都是字符。

二.ASCII

从图中可以知道,这是漂亮国制定的编码。所以表中只有特殊符号、字母等。

在这里插入图片描述

三.GB2312

为了让文字被计算机理解,中国发布了GB2312编码。
GB2312编码用两个字节(8位2进制)表示一个汉字,所以理论上最多可以表示256×256=65536个汉字。

四.GBK

GBK编码标准兼容GB2312,共收录汉字21003个、符号883个,并提供1894个造字码位,简、繁体字融于一库。GB2312码是中华人民共和国国家汉字信息交换用编码,全称《信息交换用汉字编码字符集——基本集》,1980年由国家标准总局发布。基本集共收入汉字6763个和非汉字图形字符682个,通行于中国大陆。新加坡等地也使用此编码。GBK是对GB2312-80的扩展,也就是CP936字码表 (Code Page 936)的扩展(之前CP936和GB 2312-80一模一样)。

五.Unicode

Unicode(统一码、万国码、单一码)是一种在计算机上使用的字符编码。Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,规定虽有的字符和符号最少由 16 位来表示(2个字节),即:2 **16 = 65536(注:此处说的的是最少2个字节,可能更多)。

六.UTF-X

常见的有:UTF-8,UTF-16,UTF-32。它们遵循UNICODE字符集标准,但却改变了它的字节存储方案。

  1. UTF-8最小存储单位是8bit,也就是一个字节,用它存储字符,英文只需要一个字节,汉字通常需要三个字节。所以这种编码方案很适合英文字符集多的场景使用。
  2. UTF-16类似,区别在于最小存储单位是16bit,也就是两个字节,存储英文和汉字都需要两个字节,所以该方案适合汉字量居多的场景。它和UCS-2的存储方案很类似,可以说就是一样的东西。
  3. UTF-32还是类似的,只不过最小存储单位是四个字节,这是为UCS-4字符集准备的。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值