常见的字符编码格式(详解)

无论是编程人员,还是人们日常生活使用,往往会因为对字符编码格式不清晰而产生一些困扰,下面这篇文章就对常见的字符编码格式进行详细的解释

常见的字符编码格式有:标准ASCII码,扩展ASCII码,Unicode,UTF-8,GB2312,BIG5,GBK,GB18030

1.标准ASCII码

  产生时间:ASCII码第一次以规范标准的类型发表是在1967年,最后一次更新则是在1986年

编码数量:至今为止共定义了128个字符,以一个字节表示,这个字节的最高位固定为0,用其余七位二进制数表示128个字符。

表示内容:所有的大写和小写字母,数字0~9,标点符号,以及在美式英语中使用的特殊控制字符

弊端:表示的字符数量有限,无法在全球范围内广泛使用,目前常见的使用领域多为编程领域

掌握程度:程序员需要熟记常见的ASCII编码,如大小写字母,数字0~9等等。非程2序员了解即可

2.扩展ASCII码

产生原因:由于ASCII码表示的字符数量有限,只能表示英文的字符,无法适用于欧洲的其它国家,更无法适用于亚洲国家,比如汉字就多达10万个,数量是远远无法满足需求的,因此一些欧洲的国家就决定利用字节中闲置的最高位编入新的符号。

编码数量:256个字符

表示内容:0~127表示的字符和标准ASCII码表示的字符一样,128~255这一段每个国家所代表的字符都不一样

弊端:即使表示的字符数量增加了一倍,但由于每个国家的编码都不一样,所以使用范围被大大缩小,局限性很高

掌握程度:只限了解

3.Unicode

产生原因:当互联网迅猛发展,地域限制被打破之后,人们迫切的希望有一种统一的规则,对所有国家和地区的字符进行编码,于是Unicode编码就产生了

简介:Unicode是国际标准字符集,它将世界各种语言的每个字符定义一个唯一的编码,以满足跨语言,跨平台的文本信息转换

表示内容:Unicode字符集的编码范围0x0000~0x10FFFF,可以容纳一百多万个字符,每个字符都有一个独一无二的编码,也即每个字符都有一个二进制数值和它对应,这里的二进制数值也叫码点。例如:汉字 "中" 的码点是0x4E2D,大写字母 A 的码点是0x41

下面来区分两个重要的概念:字符集和字符编码

字符集:字符集是多个字符的集合,如上述例子 “中” 和 A 等,都是字符集中的成员

字符编码:是字符集的一种实现方式,把字符集中的字符映射位特定的字节或字节序列,它是一种规则

例如:Unicode只是字符集,UTF-8 , UTF-16 , UTF-32才是真正的字符编码规则

Unicode字符存储:Unicode字符集的编码范围是0x0000~0x10FFFF,因此需要1~3个字节来表示,很明显并不是所有的字符都能用一个字节来表示,同样,也不是所有的字符都需要三个字节来表示,否则这将会极大的浪费计算机的内存空间,因此就出现了多种存储方式,常见的有UTF-8 , UTF-16 , UTF-32 , 它们分别用不同的二进制格式来表示Unicode字符,对于各种编码规则这里就不单独介绍了

使用:现如今经常使用的编码方式是UTF-8,在很多编程软件以及文本文件中最常见的就是UTF-8编码格式

掌握:一般只需要对编码格式有一些大体的了解就行,如果要深入学习,推荐学习UTF-8编码格式

以下介绍的四种编码格式均为汉字编码格式,其中GB2312 , GBK , GB18030均为中国大陆制定的中国汉字编码国家标准,是我国计算机系统必须遵循的基础性标准 , BIG5标准为繁体字格式,是台湾地区使用的编码格式

4.GB2312

简介:是1980年制定的中国汉字编码国家标准

表示内容:共收录7445个字符,其中汉字6763个,兼容标准ASCII码

编码方式:采用扩展ASCII码的编码空间进行编码,一个汉字占用两个字节,每个字节最高位为1

5.GBK

简介:指定于1995年

表示内容:兼容GB2312以及BIG5编码中的所有汉字,共有23940个码位,收录了21003个汉字,CBK向下与GB2312编码兼容,向上支持ISO 10646.1国际标准,是前者向后者过度过程中的一个承上启下的产物。

编码方式:使用双字节编码,编码空间为0x8140~0xFEFE

6.GB18030

简介:是我国指定的以汉字为主并包含多种我国少数民族文字(如藏,蒙古,傣,彝,朝鲜,维吾尔等)的超大型中文编码字符集强制性标准,其中收入汉字70000余个,是我国计算机系统必须遵循的基础性标准之一

7.BIG5编码

简介:称为繁体中文编码,主要在我国台湾地区使用

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值