汉字编码的发展历史

1. **ASCII 码**:计算机最早由美国人使用,他们制定了 ASCII 编码,用 8 位二进制(一个字节)表示字符,占用了 0 到 127 的编码,包含了 26 个大小写英文字母以及若干英文符号等。随后,许多欧洲国家也开始使用计算机,占用了 128 到 255 的位置,称为 ISO8859-1。

2. **GB2312**:20 世纪 80 年代中国开始大力发展计算机技术,为了显示汉字,推出了 GB2312 编码(1980 年公布)。它是对 ASCII 码的中文扩展,采用两个字节表示汉字编码。在计算机使用时,会判断字节是否在 0 到 127(ASCII 码范围),若是则为单字节的英文字母,否则联合后面的一个字节共同判断当前的汉字。GB2312 共收录了 6763 个常用汉字和 682 个图形字符。它参考了第一批异体字整理表(1955)、简化字总表(1964)和印刷通用汉字字形表(1965)等汉字规范标准,兼顾当时信息处理实际需要进行选字。该字符集广泛应用于国内 DOS 软件和简体 Windows 3.2 中,是汉字信息技术的第一个重要标准。

3. **GBK**:随着汉字使用需求的增加,GB2312 中收录的汉字不够用了,于是在 1995 年推出了 GBK 编码(汉字内码扩展规范)。它不再要求低字节一定是 127 号之后的内码,只要第一个字节大于 127 就固定表示这是一个汉字的开始。GBK 包括了 GB2312 的所有内容,还增加了近 20000 个新的汉字(包括繁体字)和符号。

4. **GB18030**:后来为了满足少数民族使用电脑的需求,在 GBK 的基础上进一步扩展,加入了几千个少数民族的字,形成了 GB18030 编码。

5. **Unicode**:由于各国都自制字符编码,没有统一标准,导致不同系统中显示各国文字时出现乱码。为解决这一问题,国际标准化组织制定了 Unicode 编码。Unicode 有两套标准,分别是 UCS-2(用 2 个字节为字符编码)和 UCS-4(用 4 个字节为字符编码)。它为每个文字都分配一个单独的编码,将中文、英文、法文、德文等所有文字统一起来考虑。

6. **UTF-8**:Unicode 诞生后面临着与 ASCII 字符集不兼容的问题,UTF(UCS Transformation Format,UCS 转换格式)应运而生,它是将 Unicode 编码规则和计算机实际编码对应起来的规则。UTF-8 是一种流行的实现方式,采用变长编码方式,能与 ASCII 编码保持最大程度的兼容。它将 Unicode 编码为 00000000-0000007F 的字符用单个字节表示,00000080-000007FF 的字符用两个字节表示,00000800-0000FFFF 的字符用 3 字节表示。汉字编码的范围(4e00~9fa5)

在 Unicode 之前,中国还存在其他中文编码标准,如台湾使用的 Big5 编码以及中国香港使用的 HKSCS 编码,这些编码标准互不兼容,且编码区间也各有不同。而 GBK 兼容 GB2312,并增加了大量不常用汉字和几乎所有的 Big5 中的繁体汉字,但其中的繁体汉字和 Big5 中的几乎不兼容。目前,GBK 已在多种操作系统中被实现,而 GB18030 据了解尚无操作系统直接支持。

  • 7
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值