字符编码简单总结-ASCII、ASNI、GB2312、Unicode、UTF-8


目前的文字编码标准主要有 ASCII、GB2312、GBK、Unicode等。ASCII 编码是最简单的西文编码方案。GB2312、GBK、GB18030 是汉字字符编码方案的国家标准。ISO/IEC 10646 和 Unicode 都是全球字符编码的国际标准。

1、ASCII码—美国信息交换标准代码,共128个字符,用于英语/西欧语言显示

ASCII ((American Standard Code for Information Interchange): 美国信息交换标准代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言。它是最通用的信息交换标准,并等同于国际标准ISO/IEC 646。ASCII共定义了128个字符。
常见ASCII码的大小规则:09<AZ<a~z。几个常见字母的ASCII码大小: “A”为65;“a”为97;“0”为 48 。
在这里插入图片描述

2、ASNI—ASCII的扩展,Windows系统中代表系统默认编码(不固定)

ASNI 是ASCII的扩展,向下包含 ASCII。对于ASCII字符仍以一个字节来表示,对于非ASCII字符则使用2字节来表示。并没有固定的ASNI 编码,它跟本地化密切相关,不同的国家和地区制定了不同的标准。中国大陆ANSI的默认编码是GB2312;在港澳台地区默认编码是BIG5。以数值“0xd0d6”为例,对于 GB2312 编码它表示“中”;对于 BIG5 编码它表示“笢”。

3、常见中文编码GB2312(简体)/ BIG5(繁体)/ GBK(GB2312的扩展)/ GB18030(最新最全)

GB2312 :1980 年制定的中国汉字编码国家标准。共收录 7445 个字符,其中汉字 6763 个。GB2312 兼容标准 ASCII码,采用扩展 ASCII 码的编码空间进行编码,一个汉字占用两个字节,每个字节的最高位为 1。 具体办法是:收集了 7445 个字符组成 94*94 的方阵,每一行称为一个“区”,每一列称为一个“位”,区号位号的范围均为 01-94,区号和位号组成的代码称为“区位码”。为了兼容标准 ASCII 码,给国标码的每个字节加 0xa0,这样高低字节的第8位都变成了1。一个小于127的字符的意义与原来相同,但两个大于127的字符连在一起时,就表示一个汉字。例如“啊”字在大多数程序中,会以两个字节,0xB0(第一个字节) 0xA1(第二个字节)储存。区位码=区字节+位字节(与区位码对比:0xB0=0xA0+16,0xA1=0xA0+1)。

BIG5 : GB2312面向简体中文字符集,并不支持繁体汉字,1984年台湾五大厂商宏碁、神通、佳佳、零壹以及大众一同制定了一种繁体中文编码方案BIG5。大五码采用双字节编码,第1字节范围0x81-0xFE,避开了同ASCII码的冲突,第2字节范围是0x40-0x7E和0xA1-0xFE。
在这里插入图片描述
GBK : 《汉字内码扩展规范》(GBK) 于1995年制定,兼容GB2312、GB13000-1、BIG5 编码中的所有汉字,使用双字节编码,编码空间为 0x8140~0xFEFE,共有 23940 个码位,其中 GBK1 区和 GBK2 区也是 GB2312 的编码范围。收录了 21003 个汉字。GBK向下与 GB 2312 编码兼容,向上支持 ISO 10646.1国际标准。

GB18030 :《信息交换用汉字编码字符集基本集的补充》是我国继GB2312-1980和GB13000-1993之后最重要的汉字编码标准,2000年发布的,并且将作为一项国家标准在2001年的1月正式强制执行。以汉字为主并包含多种我国少数民族文字(如藏、蒙古、傣、彝、朝鲜、维吾尔文等)的超大型中文编码字符集强制性标准,其中收入汉字70000余个 。

4、国际码Unicode包含各国语言业界标准,编码方式UTF-8/UTF-16等

Unicode(中文:万国码、国际码、统一码、单一码)是计算机科学领域里的一项业界标准。Unicode是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求 ,1994年正式公布。UNICODE 仍然向下兼容 ASCII,数值范围是 0x0000 至 0x10FFFF,可以表示 100 多万个字符。
Unicode的编码方案又叫Unicode转换格式,简称为UTF(Unicode Transformation Format),包括UTF-16、UTF-32以及UTF-8等。
UTF-8是一种针对Unicode的可变长度字符编码,也是一种前缀码。它可以用来表示Unicode标准中的任何字符,而且其编码中的第一个字节仍与ASCII相容,逐渐成为电子邮件、网页及其他存储或传送文字的应用中,优先采用的编码。UTF-8使用一至六个字节为每个字符编码(后续标准更新,实际最多4字节)。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值