字符编码的发展史

Eli___

于 2021-11-20 19:40:54 发布

阅读量1.4k

点赞数 2

文章标签：开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/martin_3/article/details/121443656

版权

请添加图片描述

一.

我们都知道，计算机只能处理数字，即0和1，如果要处理文本，就必须先把文本转换为数字才能处理。

字节是计算机存储数据的基本单位！
字符是人类文明创造的符号，汉字、英文字母、标点符号、特殊符号都是字符。

二.ASCII

从图中可以知道，这是漂亮国制定的编码。所以表中只有特殊符号、字母等。

在这里插入图片描述

三.GB2312

为了让文字被计算机理解，中国发布了GB2312编码。
GB2312编码用两个字节(8位2进制)表示一个汉字，所以理论上最多可以表示256×256=65536个汉字。

四.GBK

GBK编码标准兼容GB2312，共收录汉字21003个、符号883个，并提供1894个造字码位，简、繁体字融于一库。GB2312码是中华人民共和国国家汉字信息交换用编码，全称《信息交换用汉字编码字符集——基本集》，1980年由国家标准总局发布。基本集共收入汉字6763个和非汉字图形字符682个，通行于中国大陆。新加坡等地也使用此编码。GBK是对GB2312-80的扩展，也就是CP936字码表 (Code Page 936)的扩展（之前CP936和GB 2312-80一模一样）。

五.Unicode

Unicode（统一码、万国码、单一码）是一种在计算机上使用的字符编码。Unicode 是为了解决传统的字符编码方案的局限而产生的，它为每种语言中的每个字符设定了统一并且唯一的二进制编码，规定虽有的字符和符号最少由 16 位来表示（2个字节），即：2 **16 = 65536（注：此处说的的是最少2个字节，可能更多）。

六.UTF-X

常见的有：UTF-8，UTF-16，UTF-32。它们遵循UNICODE字符集标准，但却改变了它的字节存储方案。

UTF-8最小存储单位是8bit，也就是一个字节，用它存储字符，英文只需要一个字节，汉字通常需要三个字节。所以这种编码方案很适合英文字符集多的场景使用。
UTF-16类似，区别在于最小存储单位是16bit，也就是两个字节，存储英文和汉字都需要两个字节，所以该方案适合汉字量居多的场景。它和UCS-2的存储方案很类似，可以说就是一样的东西。
UTF-32还是类似的，只不过最小存储单位是四个字节，这是为UCS-4字符集准备的。

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。