各种字符编码(GBK,BIG5,Unicode)

以下文字来源于http://ccl.pku.edu.cn/doubtfire/Course/Chinese%20Information%20Processing/2002_2003_1.htm
的Chapter_03_Character.ppt文件

GBK 采用双字节表示,总体编码范围为 8140-FEFE,首字节在 81-FE 之间,尾字节在 40-FE 之间,其中 xx7F 为空。总计 23940 个码位,共收入 21886 个汉字和图形符号,其中汉字(包括部首和构件)21003 个,图形符号 883 个。GB的编码范围:A1A0 – F7FE      首字节:A1-F7,尾字节:A0-FE
ASCII(美国标准信息交换码)规定了常用的数字、字符的编码。标准ASCII码是7位二进制编码,所以最多可以表示128个字符。每个字符可以用一个字节表示,字节的最高位为0。
ASCII码中的符号可以分成两类:
显示字符:范围为32~126,指能从键盘输入、可以显示和打印的字符
控制字符:范围是0~31,127,主要用来控制输入、输出设备。
国标码(GB)是指1981年我国公布的国家标准《信息交换用汉字编码字符集-基本集》,包含:简化汉字,符号,字母,日文假名,共7445个字符;其中包含了6763个汉字,并分作两级:一级为常用字,3755个,按照拼音排序,二级为次常用字,3008个,按照部首排序。
一个字符的国标码由两个部分组成,分别是该字符的区号和位号。
GB码规定共有94个区,每个区中有94个位。编码空间为:94 * 94 = 8836 个码位。1 ~ 9 区是西文字母、数字、日文假名、图形符号16~87区是汉字区,其中16 ~ 55 区是一级汉字(40 * 94 - 5 = 3755个), 56 ~ 87 区是二级汉字(32 * 94 = 3008个),10~15,88~94区是用户自定义区
GB码的机内表示
汉字GB码要和ASCII码一同使用会有冲突问题
     GB:   01-03     字符:。
     ASCII:01   控制符SOH     03   控制符ETX
GB 内码区别于 ASCII码,每个字节的最高位设置为1
已知一个字的区位码,将区码和位码分别加A0就得到汉字机内编码(A0H = 101000002 = 16010)
例入:汉字“爱” 的GB码区号是16,位号是14,机内表示是:B0-AE(16进制)或 176-174(10进制)
GBK码是GB-2312的扩展
GBK 向下与 GB 2312 编码兼容,向上支持 ISO 10646.1 国际标准。
ISO 10646 是国际标准化组织 ISO 公布的一个编码标准,即 Universal Multilpe-Octet Coded Character Set(简称 UCS),大陆译为《通用多八位编码字符集》,台湾译为《广用多八位元编码字元集》,它与 Unicode 组织的 Unicode 编码完全兼容。ISO 10646.1 是该标准的第一部分《体系结构与基本多文种平面》。我国 1993 年以 GB 13000.1 国家标准的形式予以认可(即 GB 13000.1 等同于 ISO 10646.1)。
ISO 10646 是一个包括世界上各种语言的书面形式以及附加符号的编码体系。其中的汉字部分称为“CJK 统一汉字”(C 指中国,J 指日本,K 指朝鲜)。
CJK的中国部分,包括了源自中国大陆的 GB 2312、GB 12345、《现代汉语通用字表》等法定标准的汉字和符号,以及源自台湾的 CNS 11643 标准中第 1、2 字面(基本等同于 BIG-5 编码)、第 14 字面的汉字和符号。
GBK 采用双字节表示,总体编码范围为 8140-FEFE,首字节在 81-FE 之间,尾字节在 40-FE 之间,其中 xx7F 为空。总计 23940 个码位,共收入 21886 个汉字和图形符号,其中汉字(包括部首和构件)21003 个,图形符号 883 个。GB的编码范围:A1A0 – F7FE ,首字节:A1-F7,尾字节:A0-FE
GBK码的字符分布:
1. 汉字区。包括:
 a. GB 2312 汉字区。即 GBK/2: B0A1-F7FE。收录 GB 2312 汉字 6763 个,按原顺序排列。
 b. GB 13000.1 扩充汉字区。包括:
  (1) GBK/3: 8140-A0FE。收录 GB 13000.1 中的 CJK 汉字 6080 个。
  (2) GBK/4: AA40-FEA0。收录 CJK 汉字和增补的汉字 8160 个。CJK 汉字在前,按 UCS 代码大小排列;增补的汉字(包括部首和构件)在后,按《康熙字典》的页码/字位排列。
2. 图形符号区。包括:
 a. GB 2312 非汉字符号区。即 GBK/1: A1A1-A9FE。其中除 GB 2312 的符号外,还有 10 个小写罗马数字和 GB 12345 增补的符号。计符号 717 个。
 b. GB 13000.1 扩充非汉字区。即 GBK/5: A840-A9A0。BIG-5 非汉字符号、结构符和“○”排列在此区。计符号 166 个。
3. 用户自定义区:分为(1)(2)(3)三个小区。
  (1) AAA1-AFFE,码位 564 个。
  (2) F8A1-FEFE,码位 658 个。
  (3) A140-A7A0,码位 672 个。
  第(3)区尽管对用户开放,但限制使用,因为不排除未来在此区域增补新字符的可能性。
BIG5 码:
BIG-5 码是通行于台湾、香港地区的一个繁体字编码方案,俗称“大五码”。
Big-5 是一个双字节编码方案,其第一字节在 A0~FE 之间,第二字节在 40~7E 和 A1~FE 之间。因此,其第一字节的最高位是 1,第二字节的最高位则可能是 1,也可能是 0。
Big-5码字符分布:
1. 符号 408 个,A140~A3FE(实际止于 A3BF,末尾有空白位置)。
2. 汉字 13053 个,分为常用字和次常用字两部分,各部分中的汉字按笔划/部首排列。其中:
 a. 常用字 5401 个,编码位置为 A440~C67E。包括台湾教育部颁布的《常用国字标准字体表》中的全部汉字 4808 个,台湾国中国小教科书常用字 587 个,异体字 6 个。
 b. 次常用字 7652 个,编码位置为 C940~F9FE(实际止于 F9D5,末尾有空白位置)。包括台湾教育部《次常用国字标准字体表》的全部汉字 6341 个,《罕用国字标准字体表》中使用频率较高的字 1311 个。
  其余的 A040~A0FE、C6A1~C8FE、FA40~FEFE 为空白区域。一些空白位置,经常被用于用户造字区,而且多存放香港常用字和粤语方言字。
Unicode码:
Unicode编码(Universal Multiple Octet Coded Character Set)
国际标准组织于1984年4月成立ISO/IEC JTC1/SC2/WG2工作组,针对各国文字、符号进行统一编码。1991年美国成立Unicode Consortium,并于1991年10月与WG2达成协议,采用同一编码字集。
Unicode是采用16位编码体系,其字符集内容与ISO10646的BMP(Basic Multilingual Plane)相同。Unicode于1992年6月通过DIS(Draf International Standard)。1996公布的V2.0版包含符号6811个,汉字20902个,韩文拼音11172个,造字区6400个,保留20249个码位。





评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值