常见的汉字编码标准

所有信息在计算机中都是以二进制数0和1表示的,汉字也不例外。将不同的汉字设定为不同的数字,这就是汉字编码。不同的汉字编码规则就形成了不同的编码标准,以下是常见的汉字相关编码标准。

一、国内标准

1.GB2312

GB2312是1980年中国发布了第一个汉字编码标准,全称 《信息交换用汉字编码字符集·基本集》,它包含了6763个汉字字符,覆盖了现代汉语的常用词汇和短语。该编码标准将汉字分为两级,第一级包含1300个常用汉字,第二级包含5400个较为罕见的汉字。

2.GBK

GBK编码是在GB2312编码的基础上扩展而来的,于1995年12月1日制订,全称为《汉字内码扩展规范》。GBK这三个字母代表汉语拼音Guó Biāo Kuò,表示汉字国标扩展码相对GB2312,它支持更多的汉字和字符。

GBK完全兼容GB2312-80标准,不过它只是 "技术规范指导性文件",并不属于国家标准。

GBK编码采用定长的双字节编码方式,在中国大陆地区被广泛应用。

3.GB18030

全称《信息技术中文编码字符集》,是中国国家标准的最新汉字编码字符集。它是GBK的扩充,可以表示少数民族的字符。

它们之间的关系是:GB18030兼容GBK,GBK兼容GB2312,GB2312兼容ASCII。

二、国际标准

1.Unicode

也称统一码,万国码。它的目的是统一世界上所有的语言编码,可以容纳100多万个符号,包含了世界上几乎所有语言的字符和符号。它的缺点是效率不高,需用4个字节存储一个符号。

2.UTF-8

为了提高Unicode的编码效率,就出现了UTF-8编码。UTF-8是一种可变长度的Unicode编码,一个字符的编码长度可为1到4个字节,根据字符的实际长度来分配存储空间。

3ANSI

ANSI码即为美国国家标准学会的标准码。使用 2 个字节来代表一个字符的各种延伸编码方式,称为ANSI编码。在简体中文系统下,ANSI编码代表GB2312编码,在日文操作系统下,ANSI 编码代表 JIS 编码。不同 ANSI 编码之间互不兼容。

三、其他标准

BIG5

因为GB2312面向简体中文字符集,不支持繁体汉字,而在台湾、香港与澳门地区,使用的是繁体中文字符集,所以台湾五大厂商宏碁、神通、佳佳、零壹以及大众一同制定了一种繁体中文编码方案。因其来源被称为五大码,英文写作Big5,后来按英文翻译回汉字后,普遍被称为大五码。

  • 7
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

金创想

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值