计算机是如何处理中文的(三)

2. 相关概念和问题

2.1.       字符集

2.1.1.        基本概念

1)        character repertoire:一组字符的集合;与character encoding无关;有默认的COLLATION;这是一个有形的符号集合

2)        character encoding form:对特定character repertoire进行计算机编码;

3)        collation:定义字符的大于、小于、等于关系;应用于特定character repertoire(只能为一个)和character set(可为多个)。每种collation都具有NO PADPAD SPACE属性(用于指定比较前是否要在字符串尾部补空格或某个特定字符);规则,符号间比较大小的规则(自然界天生就喜欢排序)

4)        character set[1]:由三部分组成:character repertoirecharacter encoding form和默认collation

 

用下表表示“字符集”的概念:

字符集(character set

character repertoire

character encoding form

collation

字符集合,一种有形物

对字符集合进行编码,一种手段

字符比较的关系,一种规则

 

2.1.2.        常见编码

1980年起,我国颁布了一系列编码字符集标准和规范:

1)       GB 2312-80《信息交换用汉字编码字符集-基本集》(1980年)

2)       GB 13000.1-93《信息技术 通用多八位编码字符集(UCS) 第一部分:体系结构和基本多文种平面》(1993年)

3)       GBK《汉字内码规范(GBK)》1.0版(1995年)

4)       GB 18030-2000《信息技术 信息交换用汉字编码字符集 基本集的扩充》(2000年)

 

常见编码之间的关系:

1)        GB2312,向下兼容ASCII(GB12345,繁体字型;GB2312,简体字型)

2)        GB13000.1,向下兼容GB2312

3)        GBK,向下兼容GB2312GB13000.1

4)        GB18030,向下兼容GB2312GB13000.1GBK

 

See Also

每个具体的编码,涉及了概念、引入标准、字汇、编码原理、字形等信息,可以参考网络,如:

GBKhttp://www.hudong.com/wiki/GBK

GB18030http://www.hudong.com/wiki/GB18030

UNICODEhttp://www.hudong.com/wiki/UNICODE



[1] 源自SQL标准

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值