2. 相关概念和问题
2.1. 字符集
2.1.1. 基本概念
1) character repertoire:一组字符的集合;与character encoding无关;有默认的COLLATION;这是一个有形的符号集合
2) character encoding form:对特定character repertoire进行计算机编码;
3) collation:定义字符的大于、小于、等于关系;应用于特定character repertoire(只能为一个)和character set(可为多个)。每种collation都具有NO PAD或PAD SPACE属性(用于指定比较前是否要在字符串尾部补空格或某个特定字符);规则,符号间比较大小的规则(自然界天生就喜欢排序)
4) character set[1]:由三部分组成:character repertoire、character encoding form和默认collation;
用下表表示“字符集”的概念:
字符集(character set) | ||
character repertoire | character encoding form | collation |
字符集合,一种有形物 | 对字符集合进行编码,一种手段 | 字符比较的关系,一种规则 |
2.1.2. 常见编码
1980年起,我国颁布了一系列编码字符集标准和规范:
1) GB 2312-80《信息交换用汉字编码字符集-基本集》(1980年)
2) GB 13000.1-93《信息技术 通用多八位编码字符集(UCS) 第一部分:体系结构和基本多文种平面》(1993年)
3) GBK《汉字内码规范(GBK)》1.0版(1995年)
4) GB 18030-2000《信息技术 信息交换用汉字编码字符集 基本集的扩充》(2000年)
常见编码之间的关系:
1) GB2312,向下兼容ASCII(GB12345,繁体字型;GB2312,简体字型)
2) GB13000.1,向下兼容GB2312
3) GBK,向下兼容GB2312和GB13000.1
4) GB18030,向下兼容GB2312、GB13000.1和GBK
See Also:
每个具体的编码,涉及了概念、引入标准、字汇、编码原理、字形等信息,可以参考网络,如:
GBK,http://www.hudong.com/wiki/GBK