GBK、BIG5、CJK、HZ的内码体系

汉字扩展内码规范 — GBK 
 
汉字扩展内码规范 — GBK 的目的是解决汉字收字不足、简繁同平面共存、简化代码体
系间转换等汉字信息交换的瓶颈问题,并在保持已有应用软件兼容性的前提下,向最终 
的国际统一双字节字符集标准 ISO10646.1 迈进。
 
1  扩展的汉字内码规范的原则
  与《信息交换用汉字编码字符集--基本集》即国家标准 GB2312-80 的内码体系标准完
全兼容。 
  在字汇一级支持 ISO 10466.1/《CJK统一汉字编码字符集》即国家标准 GB13000.1的
全部 CJK 汉字。
  非汉字符号同时涵盖大部分常用的《BIG5》非汉字符号。
2  规范的名称与简称
  中文名称:汉字内码规范
  英文名称:Chinese Internal Code Specification
  简称: GBK ( K 是“扩展”的汉语拼音第一个字母)
 
3  规范的内容
   适用范围:
  作为非 UCS (ISO 10646) 体系的代码页(Code Page),适用于中文信息的处理、交
换、存储、显现、输入和输出。 
   字汇:
 
     GB2312-80的全部汉字、非汉字符号。
 
     GB13000.1中的其他CJK汉字。
 
    以上两项合计为 20902 个 GB 化汉字。
 
     《简化字总表》中尚未收入 GB 13000.1 的 52 个汉字;即,GBK 不但能包括
《现代汉语通用字表》的全部七千个汉字,还能够包含《简化字总表》中的全部简体 
字及其对应的繁体字。 
     《康熙字典》及《辞海》中尚未收入 GB 13000.1 的部首及重要构件共 28 个。
     13 个汉字结构符。
     《BIG5》中未被 GB2312--80 收入的、单在 ISO 10646.1 中存在的图形符号
139 个。
     正式收入带音调的拼音字母 30 个和 ɑ、ɡ(按 GB 12345-90 印刷本)。
 
     汉字“O”(GB13001.1代码 0x3007“零”)。
     GB 12345-90 中编码的竖排标点符号 19 个,但凡是 UCS 中没有编码的暂不收入。
     从 ISO 10646.1/GB 13000.1 的 CJK 兼容区挑选出来的 21 个汉字,以保证若干
 BIG5 (TCACNS11643) 文件、JIS 文件及 IBM 文件在双向往返转换中不致丢失信息。
     31 个 IBM OS/2 专用符号,凡是 ISO 10646.1/GB 13000.1 已经收入的全部收入
或认同。 
 
   汉字字序
 
     GB2312-80 的汉字仍然按照原有的 I 级字,II 级字,分别按拼音、部首/笔画排
列。 
     GB13000.1 的其他CJK汉字,按 UCS 代码大小顺序排列。
     追加的80个汉字、部首/构件,与上述两类字汇分开,按康熙字典页码.字位单独
排列。 
 
   码位分配(略)
 
总体采用 8140-FEFE 的矩形区域,剔除 xx7F 一条线,共 23940 个码位。
 
     汉字区:21008 个码位。GB2312-80汉字区 B0A1-F7FE,6768个码位, 6763个汉
字;GB13000.1扩充汉字区 8140-A0FE的矩形区,剔除 xx7F, 6080 个码位;AA40-FEA0,
剔除 xx7F, 8160 个码位,其中, 21 个 CJK 兼容汉字编码在 FD9C-FE4F; 80 个增补
汉字/部首/构件在 FE50-FEA0。
     图形符号区:1038 个码位。GB2312-80非汉字区 A1A1-A9FE,846 个码位,除了原
有的标准字符外,其中还有: 10 个小写罗马数字《补充在 A2A1-A2AA, 30 个带音调拼
音字母及 ɑ、ɡ安排在 A8A1-A8C0, 19 个竖排符号安排在 A6E0-A6F5 之间。GB13000.1
扩充非汉字区A840-A9A0,剔除 xx7F,192 个码位,BIG5 非汉字字符、结构符和“O”
排列在此区域。 
 
     用户自定义区: 1894个码位,AAA1-AFFE的矩形区, 564 个码位;F8A1-FEFE的矩
形区, 658 个码位,A140-A7A0 的矩形区, 672 个码位 (剔除 xx7F)。
   GBK 与 GB 13000.1 的对应关系
     汉字区和图形符号区的所有字符,都与 GB 13000.1 已经编码的字符一一对应。
     52 个追加汉字、28 个部首/构件以及 13 个结构符均暂时对应于 GB 13000.1 的
专用区( Private Use Area, E000-F8FE),如果今后这些字符正式收入了 ISO 10646/ GB
 13000,本规格将作
     带音调的拼音字母,与 GB 13000.1 中 A_Zone 的 Latin 编码字符相对应;与 GB
 13000.1 不能对应的两个字母,有待向 SC2/WG2 申请码位。
 
   GBK 的字形
 
     GBK 字形要与 ISO 10646.1/GB 13000.1 保持一致。

 
     在 CJK 汉字认同规则的总框架内,选用“无重码正形”后的(GB 化)的汉字字形?
阅读更多
想对作者说点什么? 我来说一句

Big5码 转 GBK 内码

2016年09月14日 243KB 下载

没有更多推荐了,返回首页

加入CSDN,享受更精准的内容推荐,与500万程序员共同成长!
关闭
关闭