字符集的一篇好文,收之

原创 2005年05月25日 16:18:00

0xa0是gb2312编码的第一个字符,也就是160
是空格
详细汉字编码在这里:
-------------------------------------
发信人: walklooktalk (千红一窟), 信区: Chinese
标  题: 要不,我斗胆系统地讲讲汉字系统?
发信站: BBS 水木清华站 (Thu Dec 25 09:04:09 1997)
 
我知道这是一件吃力不讨好的事情。
但一则我曾经对汉字系统有过浓厚的兴趣,也曾花了不少
功夫在上面,自信掌握了一些常识。
二则弟正在玩Linux,实在对GNU这班家伙佩服到了家,
也实在对自己(也许还有你们)以前因为掌握了一点小
技巧而沾沾自喜,感到差愧。
三则,中国的许多软件,尤其是中文系统软件,某人一掌握
其关键,就会在市场上出现一个类似的产品。这样下去,我们
何时才能赶上人家?
四则,一个人的精力实在是有限的,如果你觉得自己有点才华,
希望你,你自己、你的亲人朋友、你的民族以至全人类都希望
你能够做一些富有创建性的事情,而不要重复人家做过的事情。
 
所以,我斗胆想系统地谈谈汉字系统,包括各种编码体系、各种
外挂技术、各种内码识别技巧等。
希望大家由此看到市面上的一些产品实在没有什么,它们并没有
对中国的软件事业做出什么贡献,只是在想法赚钱而已。
 

我现在深受GNU的影响,所以我以前做过的汉字系统的源码(估计
有2,3万行),如果谁有兴趣,可以向我索取,当然我也要订一个
类似GNU的License。人家
Linux(不太好估计,因为包括许多驱动程序)、
Apache(近4万行源程序)、
MUD(近7万行源程序)、BBS(近3万行源程序)都可以拿出来共享,
我虽然不如人家,为什么也不能拿出来共享呢?而要等到它在我的
硬盘上发霉发烂呢?
如果大家觉得这个工作还有意义,我就开始做它。如果觉得没有什么
意义了,我也就不花这个心思了。
 
希望得到你们的支持。
--
你好奇地问我为什么喜欢孤独流浪
  我笑笑说这不太好回答
你再次说真得很奇怪我会喜欢孤独流浪
  我看看远方,我说我想在孤独中忘却寂寞
 
发信人: walklooktalk (千红一窟), 信区: Chinese
标  题: 说中文,道中文(3.1)-国标码
发信站: BBS 水木清华站 (Sun Jan  4 22:35:20 1998)
 
    大陆计算机汉字编码最常用的是GB2310-80(信息交换用汉字
编码字符集-基本集),喜欢寻根究源的兄弟可以去查查该码是不是
80年制定的,简称国标码或GB码。除了大陆外,新加坡与一些海外
地区也用这种编码体系。
    我想说的是,不知道是那个笨蛋提出要编这种码的,因为国标码
只编入了6763个汉字,怎么够使呢?连咱们的朱总理的名字都不能
用正常的GB码表示。不过GB码编的极有心计,我就不再一一细说了,
有兴趣的兄弟可以找出GB码来看一遍,我可是看过不只一遍喔。
    国标码的编码如下:
----------+------------
    符号区| A1...FE
----------+------------
       A1 | 846个码位
        . |
       A9 |
----------+------------
    汉字区| A1...FE
----------+------------
       B0 | 6768个码位,共6763个汉字
        . |
       F7 |
----------+------------
 
    如上表,左边代表第一字节,A1到A9是字符区,B0到F7是汉字区。
6763个汉字中,有3755个一级汉字,3008个二级汉字。也许说了你不会
相信,3755个一级汉字中你不认识的很少,而3008个二级汉字中你认识
的也一定很少,不信你可以试试。
    GB码只包括了这么几个汉字,对汉字字体、输入法、汉字识别等是
一件大好事,但GB码即将成为历史,中国需要包括更多汉字的编码方法,
在这种新的情况下,中国人怎么解决大字符集的汉字字体、输入法、汉字
识别等技术,让我们拭目以待。
---------------------------------------------------------------
                                        walklooktalk(千红一窟)
                                                 于 水木清华BBS
--
你好奇地问我为什么喜欢孤独流浪
  我笑笑说这不太好回答
你再次说真得很奇怪我会喜欢孤独流浪
  我看看远方,我说我想在孤独中忘却寂寞
 

※ 修改:·walklooktalk 於 Jan  4 22:38:53 修改本文·[FROM: ab1-81.bjnet.ed]
发信人: walklooktalk (千红一窟), 信区: Chinese
标  题: 说中文,道中文(3)-汉字编码常识
发信站: BBS 水木清华站 (Sun Jan  4 22:08:12 1998)
 
    大家知道,西文字符一般是以一个字节来表示的,最常用的表示方法是
ASC II。但一个字节只能表示256个字符,而汉字成千上万,所以现在都以两个
字节来表示汉字,为了能够与西文字符分开,第一个字节的高8位一定为1。
但两个字节最多也就表示64K个字符,单单我们中文要收集全了,也不只6万个汉字,
更不用说用两个字节来表示全世界所有的文字了。所以世界标准化组织在组织一种
4个字节的字符表示方法,如果这种方法能够成为标准,人类的所有文字都可以统一在
一种编码中了。
    下面介绍几个概念,都是我自己的理解,不敢保证正确喔 :-)
 
1. 区位码
   一般的双字节编码(如中文、日文、韩文等),都分成许多区,每个区中包括一些字。
如GB码就分为81个区,每个区中有94个汉字。某个汉字落在哪个区、是该区中第几个汉字,
这两个参数就组成了该汉字的区位码。
2. 内码
   区位码是从1开始计数的,由于要与西文字符进行区别,所以双字节编码的第一个字节
就要把高8位设成1。内码是真正的内存中对中文的表示方法,以c语言解释如下:
   char sString[]="中文" ;
   sString[0]与sString[1]就是“中”字的内码。
3. MBCS/DBCS
   MultiByte/DoubleByte Character Set的缩写,在这种编码系统中,以单字节
表示西文字符,以双字节或多个字节来表示汉字等,汉字串的处理方法与西文字符
完全相同,需要以第一字符的高8位来判断是中文字符还是西文字符,这也是大家
一般理解的汉字表示方法,以c语言解释如下:
   int nEnglish , nChinese ;
   char sEnglish[]="English" ;
   char sChinese[]="中文" ;
 
   nEnglish  =strlen( sEnglish ) ;
   nChinese  =strlen( sChinese ) ;
   如上,nEnglish将等于7,nChinese将等于4。
4. UNICODE
   因为MBCS/DBCS在处理汉字上有非常不方便的地方,所以微软提出了UNICODE,以2个
字节来表示英文字符与中文字符。为了与ANSI编码兼容,西文字符的高字节为0,
低字节就是以前ANSI编码,如ASC II码。
   反应在VC编程中,利用char将不是很好的选择,最好选用TCHAR变量类型。利用
该变量类型,编出来的程序可以适应国际化的需要。在不同的情况下,TCHAR可以
映射到不同的类型,如下:
                 实际类型    占字节数
  ANSI           char         1
  _MBCS          char         1

  UNICODE        wchar_t      2
   与TCHAR相对应,最好利用另外一套字符串的处理函数,即以 _tcs带头的函数族,
如_tcslen()。在不同的情况下,_tcsxxx函数族映射为sxxx函数族(ANSI与_MBCS)或
wcsxxx函数族(UNICODE)。例如,要计算一个字符串占多少空间,要用如下语句:
   TCHAR        *sString ;
   int          nBytes ;
 
   nBytes       =_tcslen( sString )*sizeof( TCHAR ) ;
 
注:以上MBCS/DBCS、UNICODE的资料由Tintori提供。
----------------------------------------------------------------------------
                                                     walklooktalk(千红一窟)
                                                              于 水木清华BBS
--
你好奇地问我为什么喜欢孤独流浪
  我笑笑说这不太好回答
你再次说真得很奇怪我会喜欢孤独流浪
  我看看远方,我说我想在孤独中忘却寂寞
 
※ 修改:·walklooktalk 於 Jan  4 22:16:31 修改本文·[FROM: ab1-81.bjnet.ed]
发信人: walklooktalk (千红一窟), 信区: Chinese
标  题: 说中文,道中文(2)-目录
发信站: BBS 水木清华站 (Sun Dec 28 10:11:42 1997)
 
    我想了想,下面这些内容应该介绍的,带“?”的部分我也不太清楚,希望
了解的人能够来补充它。
    如果谁觉得还有什么需要介绍的,请提出来。
 
1. 编码常识
1.1 国标码(GB)
1.2 大五码(Big5)
1.3 汉字码(HZ)
1.4 Shift-JIS(日)
1.5 EUC-JIS(日)
1.6 KSC 5601(韩)
1.7 大国标码(GBK)
1.8 Unicode(?)
1.9 其它编码
2. 汉化常识
2.1 外挂Windows
2.2 外挂Windows 95(包括IE4、Office97等)
2.3 外挂Windows NT

3. 内码自动识别常识
3.1 自动识别GB、BIG5方法一
3.2 自动识别GB、BIG5方法二
3.3 自动识别GB、BIG5方法三
3.4 自动识别GB、BIG5方法四
4. 外挂输入法常识
4.1 我心目中的智能拼音输入
4.2 难道只有键盘输入吗?
5. 字体常识
5.1 点阵字体
5.2 TrueType字体(?)
-------------------------------------------------------------------
                                            walklooktalk(千红一窟)
                                                     于 水木清华BBS
--
你好奇地问我为什么喜欢孤独流浪
  我笑笑说这不太好回答
你再次说真得很奇怪我会喜欢孤独流浪
  我看看远方,我说我想在孤独中忘却寂寞
 
发信人: strong (大拿~一蓑烟雨任平生), 信区: Chinese
标  题: 汉字编码:BIG5
发信站: BBS 水木清华站 (Sun Jan  2 14:37:40 2000)
 
 
                                BIG-5 字符集
 
      BIG-5 码是通行于台湾、香港地区的一个繁体字编码方案,俗称“大五码
  ”。它并不是一个法定的编码方案,存在着一些瑕疵,业界的评价也不高,但它
  广泛地被应用于电脑业,尤其是国际互联网中,从而成为一种事实上的行业标
  准。
      关于 BIG-5 码的背景,一直未见详细记载,兹据我掌握的资料,介绍如下:
      1983 年 10 月,台湾国家科学委员会、教育部国语推行委员会、中央标准
  局、行政院主计处电子资料处理中心共同制定了《通用汉字标准交换码》
  (Chinese Ideographic Standard Code for Information Interchange,简称
  CISCII 码),经试用修订,1986 年 8 月 4 日由台湾中央标准局公布为法定标
  准,标准编号为 CNS 11643。这一标准于 1992 年 5 月 21 日重新修订公布,更
  名为《中文标准交换码》(Chinese Standard Interchange Code)。1995 年 1
  月 4 日,台湾中央标准局又公布了 CNS 11643-1《中文标准交换码使用方法》。
      BIG-5 码是 1984 年台湾资讯工业策进会根据《通用汉字标准交换码》制订
  的编码方案。至于为何称“BIG-5”,则未闻其详。
      Big-5 是一个双字节编码方案,其第一字节的值在 16 进制的 A0~FE 之间,
  第二字节在 40~7E 和 A1~FE 之间。因此,其第一字节的最高位是 1,第二字节
  的最高位则可能是 1,也可能是 0。
      Big-5 码的图形符号及汉字,基本与 CNS 11643 标准的第一、第二字面
  (Plane)一致,它收录 13461 个符号和汉字,包括:
      1. 符号 408 个,编码位置为 A140~A3FE(实际止于 A3BF,末尾有空白位
  置)。
      2. 汉字 13053 个,分为常用字和次常用字两部分,各部分中的汉字按笔划
  /部首排列。其中:
      a. 常用字 5401 个,编码位置为 A440~C67E。包括台湾教育部颁布的《常
  用国字标准字体表》中的全部汉字 4808 个,台湾国中国小教科书常用字 587 个,
  异体字 6 个。
      b. 次常用字 7652 个,编码位置为 C940~F9FE(实际止于 F9D5,末尾有空
  白位置)。包括台湾教育部《次常用国字标准字体表》的全部汉字 6341 个,《罕
  用国字标准字体表》中使用频率较高的字 1311 个。
      其余的 A040~A0FE、C6A1~C8FE、FA40~FEFE 为空白区域。一些空白位
  置,经常被用于用户造字区,而且多存放香港常用字和粤语方言字。
      现在流行的 BIG-5 码字库,在 F9D6~F9DC 位置大都有 7 个常用字,据说
  为倚天系统所增。若计此 7 字,则全数为 13060 个汉字,13468 个汉字和符
  号。此外,一些 BIG-5 码字库,如 Windows 繁体中文版的 True Type 细明体
  (华康科技提供,2.0 版),在 F9DD~F9FE 位置还有 33 个制表符和 1 个“
  ■”符号。
 
      Big-5 字集发表后,学者陆续发现了一些纰漏,有些纰漏在修订后的 CNS
  11643 中已得到更正。详细的情况可参见台湾中央大学单维彰先生的个人网站
  (地址见本页末)。
 
  注:
      1. 代码表使用 BIG-5 代码编制。如果你使用外挂的中文平台,需要将当前
  环境设置成为中文 BIG5 繁体来浏览。一些外挂中文平台无法完全正确显示代码
  表的内容。
      2. 如果你使用 Windows 95 简体中文版(或更高的版本)+ 微软公司提供的
  繁体字支持,则个别字符无法显示或显示错误,如数字“3”、汉字“龙”等等。
  此外一些上述的空白区域,会显示出非 BIG-5 码原有的字符。
      3. 如果你使用 Windows 95 中文版(或更高的版本)+ Netsgape Navigator,
  则在 A040~A07E 位置会显示出非 BIG-5 码原有的符号。
 
 
  相关资料:
      1. 台湾国立中央大学数学系 单维彰教授的个人网站。
         (http://www.math.ncu.edu.tw/~shann)
      2. 台湾行政院研究发展考核委员会《政府机关资讯处理共通规范使用指引》
  第三章《正式规范使用指引》第一节第一部分 《中文标准交换码(CSIC)》。
  (http://www.rdec.gov.tw/secr/ipcs-h1/311.htm)
      3. 台湾行政院主计处电子处理资料中心“CNS 11643 中文标准交换码”介绍。

  (http://www.dgbasey.gov.tw/eyimc/switch2/sw2_5/code.html#cns1164)
      4. 台湾《经济  势暨评论季刊?第一卷第四期(1996 年 2 月) 彭清一文
  《国家资讯基础及通信国家标准之建立》。
  (http://www.moea.gov.tw/~ecobook/season/sa314.htm)
      5. 台湾教育部“国语推行委员会”(http://www.moe.gov.tw/mandr/index.htm)
  业务介绍 《国字标准字体母稿制作与推广》。
  (http://www.moe.gov.tw/mandr/business/1-3-6.html)
      6. 在一些 FTP 站点中,存放有用于 DOS、Windows 3.x 的符合“国字标准
  字体”的 BIG-5 字库文件。如:
    moers4.edu.tw/chinese-pub/chinese-sys/kuh
    ftp.cuhk.edu.hk/.1/chinese/ifcss/software/fonts/big5/misc/kuh
      ftp.fedu.uec.ac.jp/pub/china/software/ftp.ifcss.org/fonts/big5/misc/kuh
      ftp.kreonet.re.kr/.3/hangul/mirrors/ccic.ifcss.org/fonts/big5/misc/kuh
    ftp.lrz-muenchen.de/pub/culture/east-asia/sw/Fonts/C/big5/misc/kuh
--
人在江湖飘,谁能不挨刀
 
发信人: strong (大拿~一蓑烟雨任平生), 信区: Chinese
标  题: 汉字编码:BIG5+
发信站: BBS 水木清华站 (Sun Jan  2 14:45:29 2000)
 
 
                             BIG5+码
 
一、编订BIG5+码之缘起
 
      本中心奉院交办协助解决众多使用BIG-5码政府单位於进行公文电子
    传递时遭遇之自造字无法转换CNS问题,而於数次会商後决议请本院研考
    会成立专案委托中文电脑基金会办理「BIG-5码字集扩编计画」,86年7月
    扩编完成。
 
二、编码原则
 
      「BIG5+码」系以CNS为蓝本,共增编标准字集4,670个字符与推荐字
    集3,250个字符;其标准字集即纳编CNS第3字面字集内之4,145个、第4字
    面字集内之219个字,均为一般文书常用之中文字,如推广应用於研发新
    版中文软体,则估计可解决80% 的BIG-5自造字转换CNS交换码问题。
(一)长度仍为双位元组,即高位元组之第一位元(MSB)=1。
(二)保留原有之标准字集字区及使用者加字区,使与原有系统具相容性。
(三)以国家标准(CNS11643)及国际标准(ISO10646)字集为字源范围,并依
    CNS之序编入。
(四)包含於ISO10646或CNS11643字集内且市面已广为使用之倚天自造字及
    符号,编入标准字集并保留原码位。
(五)单独成字之部首不再重覆编码(如金、木、水、火、土)。
(六)有重复的字删除其後者,错字则依CNS修正之。
 
六、字码架构
 
(一)总码位:由原有之19,782个扩大为23,940个(高位元组为81-FE ,低位元
    组为40-7E、80-FE)。
(二)编码区间
    1.第一标准字集:此区即原BIG-5码标准字集但删除2个重字,编码范围为
      A140-F9FE(高位元组为A1-F9,低位元组为40-7E、A1-FE)。共有13,973
      个字符,包括常用国字5,401个(A440-C67E)、次常用国字7,693个(C940
      -F9D5)及符号471个(A140-A3FE)、字符408个(C6A1-C8FE)。
    2.第二标准字集:此区即扩编部份,编码范围为8180-FEA0(高位元组为81
      -F9,低位元组为80-A0)。共收编罕用国字4,158个。
    3.CMEX推荐字集:因BIG-5码系统之编码位置有限,未能编入第一及第二
      标准字集之较常用罕用及异体国字、简体字与日韩汉字3,454个,经中
      推会(CMEX)建议集中收编於此区。编码范围为原造字区之8140-83FE、
      8E40-A0FE(高位元组为81-83、8E-A0,低位元组为40-7E、A1-FE)。
    4.造字区:仅使用第一、二标准字集时,仍保留5,809个码位供使用者造
      字,可编码区间不变;但同时使用推荐字集时,因BIG5+码之推荐字集
      系使用原造字区之8140-83FE及8E40-A0FE,供造字之码位仅余2,355个,
      可编码区间为FA40-FEFE(785个码位)、8440-8DFE(1,570个码位)。
    5.使用者专用字集:为使各行业专用之字集亦能进行资讯交换,向中推会
      申请登记ID後,将ID、字形等依照传输规定传出供对方显示或列印。
      使用者专用字集之编码区与CMEX推荐字集相同,亦使用到原造字区。
 
四、可用之工具
 
(一)24*24点阵字形档。
(二)注音符号、仓颉码属性档。
(三)CNS11643、ISO10646码对照档。
(四)BIG5+<- ->ISO10646转码程式。
(五)BIG5+<- ->CNS11643转码程式。
(六)BIG-5码自造字转BIG5+码管理程式。
(七)BIG-5自造字转码程式。
        以上所列各项工具(资料档)已建置於中推会网站中,各界人士均可
    由该会资讯网(网址://www.cmex.org.tw)或透过行政院研考会资讯网
    (网址://www.rdec.gov.tw)取用。
 
五、使用方法
 
        因BIG5+码在标准字集外尚提供推荐字集,各单位可依自己原有造
    字情况选择适当之使用方法:
 
(一)字集之使用
    1.以下情况可使用全字集(即第一、二标准字集及者推荐字集,共21,585个
      字符):
     (1)全无自造字者。
      (2)原来已有自造字,其编码区间未与推荐字集重叠者(即FA40-FEFE及
         8440-8DFE以外)。
      (3)原来已有自造字,其编码区间虽与推荐字集重叠,但可全部转换为
         新码者。
      (4)原来已有自造字,但经转换为新码後剩余自造字未超过2,355个,且
         可以或愿意改置於FA40-FEFE及8440-8DFE以外者。
    2.以下情况仅使用标准字集(即第一与二标准字集,共13,461个字符):
      (1)有自造字,但转码後剩余自造字仍超过2,355个者。
      (2)原有自造字全部或部份落於FA40-FEFE及8440-8DFE两个造字区(推荐
         字集使用范围)内,不易或不愿转换为新码者。
(二)字形传输与交换规格之使用
        BIG-5码虽已扩编,但其余未能纳入自造字及未来不断新增之自造字,
    依旧会产生交换及传送问题;为使这些自造字於网路传输及档案交换时,
    仍可作字形显示与列印,特订定以下几项规格:
    1.文件档案交换传输规格:依SGML(ISO8879)格式及CNS(ISO9541)字形资
      讯交换规格,订定SGML文件档案内字形应含之参数。
    2.中文周边装置字形下载规格:包括中文终端机、印表机及其他终端设备,
      系依CNS13479(ISO6429)规范订定字形下载之规格。
(三)各单位(使用者)需准备之工作
        BIG-5码经扩编後已纳入之自造字,如不作转码,将来交换时一定会
    发生一字两码的问题,因此在BIG5+码之新版中文系统软体推出前,各单
    位(使用者)必需先转换现有自造字之旧码,其程序如下:
    1.建立自造字之旧码与扩编後新码对照表:各单位之造字区管理者可利用
      第六项工具「BIG-5自造字转标准字对照表管理程式」比对造字区内自
      造字後建立单位内新/旧码对照表。
    2.清查需要转码之资料档:各单位或集中或各自处理,均必需先清查所有
      用过原造字区字码之资料档,以备进行转码。
    3.自造字旧码之转换:各项业务负责人或各使用者可利用第七项工具
      「BIG-5自造字转标准字转换程式」及所建立之单位内新/旧码对照表,
      将所有的「文字档(.TXT)」原用之自编旧码转换为BIG5+新码。
    4.单位内造字区之重整:为避免转码後发生一字两码之现象,各单位原有
      之造字区应作整理,删除已编入BIG5+码系统者,其余自造字则保留原
      编码或重新编码(重整造字区)。
 
五、应用现况
 

        国内厂商如:芙蓉坊、昌泰科技、大同、倚天等公司已将BIG5+码应
    用於新产品中。
       行政院研考会已决议暂不强制规定各单位使用,但仍将与本中心合作
    继续举办说明会,使各政府单位确实了解BIG5+码之性质及内容後自行决
    定采用。 
 
--
人在江湖飘,谁能不挨刀
 
发信人: strong (大拿~一蓑烟雨任平生), 信区: Chinese
标  题: 汉字编码:CCCII
发信站: BBS 水木清华站 (Sun Jan  2 14:39:47 2000)
 
                            CCCII汉字专题
 
一.CCCII编码说明
 
        CCCII是Chinese Character Code for Information Interchange的
    缩写,是经中研院中美会及国科会等单位支持,于1979年年12月25日集合
    由台湾国内图 书馆学者、文字学家及电脑专家组成“国字整理小组”提
    出的汉字编码。已 广泛用于港台图书馆及与美国线上电脑化图书资讯中
    心OCLC系统。 该编码系统提供了94面(plane)x 94行(row) x 94 列(cell)
    = 830,584字符 空间;其中每六个面构成一个层(layer)提供6 x 94 x 94
    = 53,016编码空间, (最后一层只有四个面)。各层定义的汉字情况如下:
 
   * 第1层: 符号和繁体汉字
   * 第2层: 大陆的简体汉字
   * 第3-12层: 汉字异体字
   * 第13层: 日本汉字
   * 第14层: 朝鲜汉字
   * 第15层: 保留层
   * 第16层: 杂项字(日本与朝鲜)
 
        第一至十二层的编码的编码存在关联含义,就是说同样的码在这些
    不同的 层表示同一个汉字的不同变形。如第一层表示繁体字,第二层表
    示大陆简 体字(如果有的话),第三至十二层表示其它的异体字.例如以
    下这个字的 三种变形,编码的第二、三字节是相同的:
                   字形类型  编码点    层  字样
                   繁体字    0x224E41  1   澰
                   简体字    0x284E41  2   潋
                   异体字    0x2E4E41  3 
        第一层所定义的字符集如下:
    第1面/第 2行      56 数学符号
    第1面/第 3行      ASCII
    第1面/第11行      35 中文标点符号
    第1面/第12-14行   214 康熙字典偏旁部首
    第1面/第15行      41 中文数字, 37 拼音符号, 4 音调符号
    第1面/第16-67行   4,808 备用字,字码213021-21637E
    第1面/第68行-第3面/第64行
                      17,032 备用字, 字码216421-23607E
                      20,583 罕用字,字码为 236121-262543
    第3面/第65行      含教育部颁定之罕用字汇 12,924字,次常用字汇
                      314字,
    -第6面/第5行      以及康熙字典、中文大辞典、财税资料考核中心字
                      汇、电信传输码字汇、五大专题码字汇,与其它资
                      讯字汇 7,345字。
       第二层收异体字共11,517字其中包含大陆简体字 3,625字,其它简体
             字7,892字
   所有各层的第一行均为保留行.
   共收字 53,940个.
 
四.交大资料_BBS 95年1月         ???????????????????
 
   * 中国文字资料库(CCDB)字型集的应用(1)
   * 中国文字资料库(CCDB)字型集的应用(2)
   * 中国文字资料库(CCDB)字型集的应用(3)
   * 中国文字资料库(CCDB)属性档介绍
 
 
三. ANSI Z39.64-1989
 
        This national standard is designated as ANSI Z39.64-1989 and
    named "East Asian Character Code" (EACC), but was originally known
    as REACC (RLIN East Asian Character Code), that is, before it
    became a national standard.RLIN stands for "Research Libraries

    Information Network," which was developed by the Research
    Libraries Group (RLG) located in Mountain View,California.
        RLG's Home Page is at the following URL: http://www.niso.org/
        EACC has been designated by the Library of Congress as a
    character set for use in USMARC (United States MAchine-Readable
    Cataloging) records, and is used extensively by East Asian
    libraries across North America.
       EACC is also being used in Australia for the National CJK
    Project.Check out the following URL for more details:
              http://www.nla.gov.au/1/asian/ncjk/cjkhome.html
--
人在江湖飘,谁能不挨刀
 
发信人: strong (大拿~一蓑烟雨任平生), 信区: Chinese
标  题: 汉字编码:前言
发信站: BBS 水木清华站 (Sun Jan  2 14:28:59 2000)
 
    由于历史原因,中国大陆,港台地区各自制定使用不同的汉字编码规
范,相应的各种转码软件应运而生。而电脑爱好者对各规范并不熟悉,相
应的介绍又比较少,本人根据收集到的一些材料,转载、编写了本系列文
章,希望对大家有帮助。
    转载内容主要来自以下网站:
        金融电脑之家
        http://member.netease.com/~stonec/
        网络灯塔
        http://202.102.224.23/grwy/steelk/navigator/ref/gbindex1.htm
    转载时对文章格式进行了修改,以适应转载需要,并改正了少量乱码。
对文章内容未作大的修改,部分文章来源于台湾网站,沿用原文称谓。
--
人在江湖飘,谁能不挨刀
 
※ 来源:·BBS 水木清华站 smth.org·[FROM: 162.105.138.50]
 
 
 
发信人: walklooktalk (千红一窟), 信区: Chinese
标  题: 说中文,道中文(1)-前言
发信站: BBS 水木清华站 (Fri Dec 26 09:49:59 1997)
 
    中文是我们中国人的骄傲,听说仓颉造出汉字时,曾经天哭地泣。
    中文也是我们中国人心口永远的痛,从“五四”到现在,从汉字
拼音化之争到计算机上汉字问题的解决,为了汉字能够在现代生存下去,
我们几代人苦苦奋斗。
    随着计算机技术的发展,国际化是唯一的方向,我们可以从国际
编码体系、NT的Unicode内核、JAVA的国际化支持等方面看到这一点。
所以,中文并不单单是我们中国人自己的事情,我相信不久以后,我们
将不会再为中文问题而头疼了。
    但毕竟我们曾在计算机的中文技术上付出了许多的心血,并且也
还将继续为它付出心血,以继承我们中华的文化、以光大我们华夏一族。
所以,我想在这儿谈一些常识性的中文知识,以帮助需要它的人们。
    《说中文、道中文》各文没有版权问题,任何人、任何组织都可以拷贝、
转摘、修改之。但在你拷贝、转摘、修改时,都希望能够保留本篇申明。
    我写以下各文,基本根据脑中所记、心中所想,我不想化费太多的时间
去引经据典。我这些知识的得到,也非一日所积,我将尽可能的说出其出处,
也将感谢那些帮助我得到这些知识的人。
    另外,我肯定有许多知识并不清楚或掌握,也肯定会写错什么,
希望掌握这些知识的人能够来完善它。

-------------------------------------------------------------------
                                       walklooktalk(千红一窟)
                                                于 水木清华BBS
 
--
你好奇地问我为什么喜欢孤独流浪
  我笑笑说这不太好回答
你再次说真得很奇怪我会喜欢孤独流浪
  我看看远方,我说我想在孤独中忘却寂寞
 
发信人: strong (大拿~一蓑烟雨任平生), 信区: Chinese 标  题: 汉字编码:CNS11643 (1) 发信站: BBS 水木清华站 (Sun Jan  2 14:42:25 2000)          CNS11643国家标准中文交换码   一、编订中文标准交换码之缘起           72年10月由国家科学委员会、教育部、中央标准局及本中心合编「     通用汉字标准交换码」後决议试用二年;试用期满,经检讨修正重编并     向中央标准局申请订为国家标准,75年8月4日获该局审定公布为国家标     准,编号「CNS11643」;81年5月21日再由该局因应实际需要修订扩编,     并更名为「中文标准交换码(Chinese Standard Interchange Code)」。   二、CNS11643之适用范围:本标准适用於中文资讯之处理。   三、编码之各项考虑           中文资讯标准交换码是否能普遍地推广使用,使一般使用者共同乐     意接受,端视其是否具有实用性,因此本码之编码原则研订时,曾先就     标准码的结构、编码需求等作多方面的周密考虑:   (一) 以教育部所公布的四个字体表之字集为范围。 (二) 根据使用的频率及范围,整理後分别编排於各个字面,以适应各个层      次之使用者。 (三) 符合国际资讯传输上所使用之CNS 5205「资讯处理及交换用七数元码      字元集(组)」及CNS 7654「资讯处理--七位元及八位元码字元集--延      码技术」标准通信定则。 (四) 涵盖常用之外语字母及工商界与学校所使用之文字及符号。   四、字集编排原则   (一) 中文标准交换码分为十六个字面,每个字面可陈列94列*94行,即8,836      个字符。目前第一至第七字面列有字集,第八至第十一 字面预留扩编      之用;第十二至第十六字面则为使用者加字区,凡未收於本码系统之中      文及符号,使用者可视需要自行编订於加字区使用。 (二) 各字面字集排列大抵依使用频率为次序,第一字面以常用字为主,第二      字面以次常用字为主,第三字面以部分罕用字及较常用异体字为主,第      四字面以ISO DIS 10646 第二版之汉字、各单位/资讯业用字及户政用      字为主,第五字面以罕用字为主,第六、第七字面以异体字为主。其中      第一、第二字面字集先於民国七十五年八月四日公布为国家标准。   五、字码编排原则   (一) 文字之选择及字体悉依教育部「国字标准字体表」为基准。      说明:中国文字的困扰主要有两方面,一是文字的数量太多,二是异体      字的增加。目前中文的总数繁多,实际上一般人常用的不过五千字左右,      新字又不断的增加,造成中文资料处理上的困扰;而教育部的标准字体      表之字集系经多年之搜集、考证、分析、选取,为较不偏颇,最具客观      性之用字字集,应能符合一般使用者之需求。 (二) 以2个位元组(bytes)为中文码编码单位,并以十六进位制之文数字表示      之。      说明:「以2个位元组为字码单位,於处理时可提高效率,且传输时可增      加资讯传输之速度」,符合一般资料处理作业之需要。采用十六进位制      之文数字编码,系因应资料处理人员所惯用之进位法,用以表示两位元      组最为简明。 (三) 符合CNS 5205及CNS 7654之通信定则。      说明:本编码为符合CNS5205及CNS7654通信定则之规定,所有控制码均      予避开,即字码中之00至20以及7F均予避开,则7bit字码集共有94个编      码位置,两个位元组共可编8,836个中文字码,订为一字面。 (四) 依字之使用频率而编排於各不同字面。      说明:在做资讯传输时,若欲传送出现在不同字面上的字,必须先送出      转字面控制码。为提高传输效率,常会一起出现的字编在同一字面中,      可减低字面转换的次数。 (五) 依先笔画後部首的排列顺序来编订字码。      说明:每一字面均按文字总笔画数为首序编订字码,使用者以笔画数即      可查寻字码。
六、字集之说明
 
第一字面:本编码系统为减少字面转换次数,特编最常用之中文字及符号、
          字母、部首等於第一字面;所编字汇及码区分别说明於下:
1. 符号区
        符号区之编码位置规划於第一字面之2121至427E,有3,102个编码位
    置,目前暂编符号684个,所余空位供尔後增添之用。
        已编入之特殊符号及文字类别如下:
    (1) 间隔符号1个。
    (2) 标点符号28个。
    (3) 括号及制表符号89个。
    (4) 一般符号34个。
    (5) 学术符号51个。
    (6) 单位符号31个。
    (7) 数字符号42个,包括阿拉伯数字10个、罗马数字大小写共20个、中国
        数字12个。
    (8) 外文字母100个,包括大写英文字母、小写英文字母各26个、大写希
        腊字母、小写希腊字母各24个。
    (9) 国语注音符号42个。
    (10)数字序列符号20个。
    (11)中国文字部首213个('ㄆ'、'ㄆ'两部首同归於'ㄆ'部首中;'ㄆ'部首
        得於将来扩编时一并列入增订)。
    (12)控制码符号33个。
2. 中文字区
        CNS第一字面之中文字区编码区间由4421至7D4B,所编字汇5,401字,
    除包括教育部颁订之「常用国字标准字体表」所列全部4,808字外,并优
    先收编国中、国小教科书中常用字587字及异体字6字。
 
第二字面:本字集所编字汇7,650字,除教育部所颁「次常用国字标准字体表」
          外,并筛选编入罕用字表中使用频率较高之1,320字;字码区间为
          2121至7244。
 
第三字面:本字集即77年6月行政院主计处电子处理资料中心为搜集仍涵盖教
          育部罕用及异体字表中之较常用字,所编订之使用者加字区第14字
          面字集第一部份,字数6,148字;原码序不变,字码区间仍为2121
          至6246。
 
第四字面:本字集所编字汇7,298字,除包括原第14字面第二部份171字外,并
          搜集户役政及其他使用单位、ISO 10646第2版汉字集、资讯业次常
          用字而成;字码区间为2121至6E5C。
 
第五字面:本字集所编字汇共8,603个字,系未包含於前4个字面之教育部罕用
          字;字码区间为2121至7C51。
 
第六字面:本字集所编字汇共6,388个字,为不包含於前5个字面且笔画在14昼
          (含)以下之教育部异体字;字码区间为2121至647A。
 
第七字面:本字集所编字汇6,539个字,为不包含於前6个字面之教育部异体字;
          字码区间为2121至6655。
 
*:使用者得视自己的需求参考本标准之字集、字序编订内码表。
 
七、CNS11643之使用
 
(一) 字面之指定与转换
         依据 CNS7654(78年7月15日版)第5.3.9节之规定,中文码可置於多
     位元组符号字库 (Multiple Byte Graphic Repertoire) 中,经由
     ESC 2/4 2/9 F 四个位元组之逸出顺序码指定於G1字集,或经由
     ESC2/4 2/10 F 指定於G2字集,亦可经由ESC 2/4 2/11 F 指定於G3字集,
     其中 F 可用3/0~3/15来指定相对之一至十六中文字面;至於英文之字
     集则可经由ESC 2/8 F 指定於G0字面。在7个位元的环境下,对於各种字
     面的使用说明如下:
     1. 利用SI使用G0字面,并为锁定方式。
     2. 利用SO使用G1字面,并为锁定方式。
     3. 利用LS2使用G2字面,并为锁定方式。
     4. 利用LS3使用G3字面,并为锁定方式。
     5. 利用SS2使用G2字面,并为非锁定方式。
     6. 利用SS3使用G3字面,并为非锁定方式。
         为求使用方便,终端设备在开机时可将G0、G1、G2等三个字集分别
     设定为ASCII、第一字面及第二字面,将G3字集设定为其他较常用的字面。
     *:有关这些控制码的使用,请参考CNS7654 。
(二) 使用者加字区之使用:
         为适应各种不同性质之中文资料处理作业,CNS11643特别订定自第
     十二字面起为使用者加字区;尚未收编於本系统之中文字或符号,由使
     用视需要先编於此区内使用;字面之指定与转换方法与前七个字面相同。
 
八、CNS11643之推广应用
 
        本交换码系统依国家标准法之规定,系由经济部中央标准局负责检讨
    增修之,但该局为加强推广该标准之应用,特将此系统及中文字型档委托
    本中心代为办理推广应用事宜;本中心为顾及标准字型档之完整性,以利
    此标准之推广,另再商得内政部及经济部工业局同意一并提供其他字型档。
        CNS11643目前之应用情形如下:
(一) 国内之应用情形
     1. 公文电子交换之标准传递码:本院「政府机关公文电子传递作业」决
     定,凡是经「交换中心」(交通部管资中心) 之公文,一律须先转换为CNS
     後再传送。
     2. EUC码援用CNS之字集及架构:UNIX系统上使用之EUC虽为4 BYTE之内码,
     但却全部采用CNS之编码架构及字集;其2个低位元组之High均Off後字码即
     与CNS完全相同,因此不需再以对照表方式转换;亦可视为CNS应用於内码
     之实例。
     3. BIG5+码之字源:86年7月完成之「BIG5+码」(即BIG-5码之扩编)系以
     CNS11643为蓝本,纳编CNS第3字面之4,145个、第4字面之219个一般文书
     常用之中文字。
(二) 国外之应用情形
         ISO10646及UNICODE汉字集均收编CNS字集;ISO10646及UNICODE目前
     共收编20,902个汉字,其中17,011个字系来自CNS (第1、第2字面全部及
     第3字面3,895个、第4字面56个),明年将再增编CNS的5,881个字。因此,
     不但我国国家标准得与国际标准相容,国内电脑业者在国际市场之竞争
     力得以增强,将来ISO106及UNICODE发展成熟後,使用者亦可得以顺利转
     换。             -- 人在江湖飘,谁能不挨刀   发信人: strong (大拿~一蓑烟雨任平生), 信区: Chinese
标  题: 汉字编码:EUC
发信站: BBS 水木清华站 (Sun Jan  2 14:46:03 2000)
 
 
 
                           EUC码(Extend UNIX CODE)
 
一、字码架构
 
    UNIX作业系统使用之内码
    字码长度:4 BYTE
 
二、应用现况
 
        目前我国户役政作业应用於处理总数已高达七、八万之姓名用字。
--
人在江湖飘,谁能不挨刀
 
※ 来源:·BBS 水木清华站 smth.org·[FROM: 162.105.138.50]
 
 
发信人: strong (大拿~一蓑烟雨任平生), 信区: Chinese
标  题: 汉字编码: GBK (2)
发信站: BBS 水木清华站 (Sun Jan  2 14:36:33 2000)
 
 
      三、字形
      GBK 对字形作了如下的规定:
      1. 原则上与 GB 13000.1 G列(即源自中国大陆法定标准的汉字)下的字形
  /笔形保持一致。
      2. 在 CJK 汉字认同规则的总框架内,对所有的 GBK 编码汉字实施“无重?
  正形”(“GB 化”);即在不造成重码的前提下,尽量采用中国新字形。
      3. 对于超出 CJK 汉字认同规则的、或认同规则尚未明确规定的汉字,在
  GBK 码位上暂安放旧字形。这样,在许多情况下 GBK 收入了同一汉字的新旧两
  种字形。
      4. 非汉字符号的字形,凡 GB 2312 已经包括的,与 GB 2312 保持一致;
  超出 GB 2312 的部分,与 GB 13000.1 保持一致。
      5. 带声调的拼音字母取半角形式。
 
      四、目前应用
      在基本操作环境方面,微软公司自 Windows 95 简体中文版始,系统采用
  GBK 代码,它包括了 TrueType 宋体、黑体两种 GBK 字库(北京中易电子公司
  提供),可以用于显示和打印,并提供了四种 GBK 汉字输入法。此外,浏览器
  IE 4.0 简体、繁体中文版内部提供了一个 GBK-BIG5 代码双向转换的功能。
      微软公司为 Internet Exporer 提供的语言包中,简体中文支持
  (Simplified Chinese Languege Suport Kit)的两种字库宋体、黑体,也是
  GBK 汉字(珠海四通电脑排版系统开发公司 提供)。其他一些中文字库生产厂
  商,也开始提供 TrueType 或 PostScript GBK 字库。
      许多外挂式的中文平台,如南极星、四通利方(Richwin)等,提供 GBK 码的
  支持,包括字库、输入法和 GBK 与其他中文代码的转换器。
      在互联网方面,许多网站的网页使用了 GBK 代码,如《人民日报》等。
      但是,多数搜索引擎,都不能很好地支持 GBK 汉字的搜索。大陆地区的搜
  索引擎,有些能够不完善地支持 GBK 汉字检索。比如,检索 GBK 汉字“镕”,
  只有在 网易 等极个别的两三个搜索引擎中能查到,而检索“朱镕基”总理三个
  字,则能在 搜索客(Cseek)、天网 等更多的几个搜索引擎中查到。而港台和国外
  的搜索引擎,甚至是知名的、具有简体中文查询能力的搜索引擎,如 Yahoo!、
  Openfind、AltaVista 等,都不支持 GBK 搜索。
      其他应用方面,微软公司的 Office 95 简体中文版以上版本,提供 GBK 码
  的检索和排序(按笔划和拼音两种方式)。
 
      五、显示 GBK 码表的要求
      1. 在满足下列环境要求时,才能保证全部字符显示准确,否则可能会出现
  缺字、显示错误或乱码。
      a. 基础环境:Windows 95 简体中文版(或更高的版本),或 Windows 95
  繁体中文版(或更高的版本)+ 微软简体中文支持。
      b. 浏览器:IE 4.01(或更高的版本)中文版,或 Netsgape Navigator
  3.x。
 
      2. 其他语种的 Windows 95(或更高的版本)+ 微软简体中文支持或外挂中
  文平台。一般的情况,使用外挂中文平台时,需要将当前环境设置成为 GBK 码,
  并关闭汉字自动识别的功能。而且,许多外挂中文平台不支持全部 GBK 汉字。
 
      3. 已知的常见错误:
      a. IE 4.0 无法显示 GBK/4 AB-AF、F9-FD 以及 FE 中 FE40-FE4F 各位置
  的汉字。
      b. 在简体 Windows 95 环境下,Netsgape Navigator 4.x 无法显示 GBK/3
  中 xxA0 位置的汉字,A040-A0FE 位置显示错误。
      c. 在繁体 Windows 95 环境下,Netsgape Navigator 4.x 不能正确显示
  GBK/3-GBK/5 之间的字符。
 
                        GBK 代码表(按分类顺序排列)
 
            GBK/1: GB2312非汉字符号 A1-A9
                                    B0-B7B8-BF C0-C7C8-CF D0-D7
            GBK/2: GB2312 汉字
                                    D8-DFE0-E7 E8-EFF0-F7
                                    81-8384-87 88-8B8C-8F 90-93

            GBK/3: 扩充汉字
                                    94-9798-9B 9C-A0
                                    AA-AFB0-B7 B8-BFC0-C7 C8-CF
            GBK/4: 扩充汉字         D0-D7D8-DF E0-E7E8-EF F0-F7
                                    F8-FE
            GBK/5: 扩充非汉字       A8-A9
                                    (1) AA-AF  (2) F8-FE
            用户自定义区
                                    (3) A1-A7
--
人在江湖飘,谁能不挨刀
 
发信人: strong (大拿~一蓑烟雨任平生), 信区: Chinese
标  题: 汉字编码: GBK (1)
发信站: BBS 水木清华站 (Sun Jan  2 14:34:52 2000)
 
 
                            GBK 汉字内码扩展规范
 
      GBK 是又一个汉字编码标准,全称《汉字内码扩展规范》(GBK),英文名称
  Chinese Internal Code Specification ,中华人民共和国全国信息技术标准化
  技术委员会 1995 年 12 月 1 日制订,国家技术  督局标准化司、电子工业部
  科技与质量监督司 1995 年 12 月 15 日联合以技监标函 [1995] 229 号文件的
  形式,将它确定为技术规范指导性文件,发布和实施。这一版的 GBK 规范为
  1.0 版。GB 即“国标”,K 是“扩展”的汉语拼音第一个字母。
 
      GBK 向下与 GB 2312 编码兼容,向上支持 ISO 10646.1 国际标准,是前者
  向后者过渡过程中的一个承上启下的标准。
      ISO 10646 是国际标准化组织 ISO 公布的一个编码标准,即 Universal
  Multilpe-Octet Coded Character Set(简称 UCS),大陆译为《通用多八位编
  码字符集》,台湾译为《广用多八位元编码字元集》,它与 Unicode 组织的
  Unicode 编码完全兼容。ISO 10646.1 是该标准的第一部分《体系结构与基本多
  文种平面》。我国 1993 年以 GB 13000.1 国家标准的形式予以认可(即 GB
  13000.1 等同于 ISO 10646.1)。
      ISO 10646 是一个包括世界上各种语言的书面形式以及附加符号的编码体
  系。其中的汉字部分称为“CJK 统一汉字”(C 指中国,J 指日本,K 指朝鲜
  )。而其中的中国部分,包括了源自中国大陆的 GB 2312、GB 12345、《现代汉
  语通用字表》等法定标准的汉字和符号,以及源自台湾的 CNS 11643 标准中第
  1、2 字面(基本等同于 BIG-5 编码)、第 14 字面的汉字和符号。
 
      一、字汇
      GBK 规范收录了 ISO 10646.1 中的全部 CJK 汉字和符号,并有所补充。具
  体包括:
      1. GB 2312 中的全部汉字、非汉字符号。
      2. GB 13000.1 中的其他 CJK 汉字。以上合计 20902 个 GB 化汉字。
      3. 《简化字总表》中未收入 GB 13000.1 的 52 个汉字。
      4. 《康熙字典》及《辞海》中未收入 GB 13000.1 的 28 个部首及重要构
  件。
      5. 13 个汉字结构符。
      6. BIG-5 中未被 GB 2312 收入、但存在于 GB 13000.1 中的 139 个图形
  符号。
      7. GB 12345 增补的 6 个拼音符号。
      8. 汉字“○”。
      9. GB 12345 增补的 19 个竖排标点符号(GB 12345 较 GB 2312 增补竖排
  标点符号 29 个,其中 10 个未被 GB 13000.1 收入,故 GBK 亦不收)。
      10. 从 GB 13000.1 的 CJK 兼容区挑选出的 21 个汉字。
      11. GB 13000.1 收入的 31 个 IBM OS/2 专用符号。
 
      二、码位分配及顺序
      GBK 亦采用双字节表示,总体编码范围为 8140-FEFE,首字节在 81-FE 之
  间,尾字节在 40-FE 之间,剔除 xx7F 一条线。总计 23940 个码位,共收入
  21886 个汉字和图形符号,其中汉字(包括部首和构件)21003 个,图形符号
  883 个。
      全部编码分为三大部分:
 
      1. 汉字区。包括:
    a. GB 2312 汉字区。即 GBK/2: B0A1-F7FE。收录 GB 2312 汉字 6763
  个,按原顺序排列。
      b. GB 13000.1 扩充汉字区。包括:
      (1) GBK/3: 8140-A0FE。收录 GB 13000.1 中的 CJK 汉字 6080 个。
      (2) GBK/4: AA40-FEA0。收录 CJK 汉字和增补的汉字 8160 个。CJK 汉字
  在前,按 UCS 代码大小排列;增补的汉字(包括部首和构件)在后,按《康熙
  字典》的页码/字位排列。
 
      2. 图形符号区。包括:
      a. GB 2312 非汉字符号区。即 GBK/1: A1A1-A9FE。其中除 GB 2312 的符
  号外,还有 10 个小写罗马数字和 GB 12345 增补的符号。计符号 717 个。
      b. GB 13000.1 扩充非汉字区。即 GBK/5: A840-A9A0。BIG-5 非汉字符

  号、结构符和“○”排列在此区。计符号 166 个。
 
      3. 用户自定义区:分为(1)(2)(3)三个小区。
      (1) AAA1-AFFE,码位 564 个。
      (2) F8A1-FEFE,码位 658 个。
      (3) A140-A7A0,码位 672 个。
      第(3)区尽管对用户开放,但限制使用,因为不排除未来在此区域增补新字
  符的可能性。
 
--
人在江湖飘,谁能不挨刀
 
发信人: strong (大拿~一蓑烟雨任平生), 信区: Chinese
标  题: 汉字编码:GBT (2)
发信站: BBS 水木清华站 (Sun Jan  2 14:33:28 2000)
 
 
    关于被精简的汉字:
      1. 88~89 区所列的 103 个汉字,GB/T 12345 称为“60 年代汉字简化
  (时)被精简的字”。这一表述不完全准确。例如:“丰”与“豐”,汉字简化
  时精简了“豐”字,以“丰”字替代,而 GB/T 12345 将被精简的“豐”字,作
  为“丰”的繁体,置于 23-65;而将“丰”字置于 88-19。类似的情况占其 103
  字的三分之一左右。
      2. 所谓 103 个“被精简的汉字”,只是被精简的“繁体字”,而未包括被
  精简(废除)的“异体字”。例如,“昇”和“陞”,作为“升”的异体字,被
  停止使用,GB/T 12345 亦未收录。相关的法定文件为中华人民共和国文化部、
  中国文字改革委员会 1955 年 6 月发布的《第一批异体字整理表》,该表列出
  异体字 810 组,1865 字,并规定废除异体字 1055 个。一些异体字,习惯上也
  被看作是简化字,所以,《简化字总表》特地从《第一批异体字整理表》中选出
  39 个异体字,列为附录。
      3. 按照汉字简化原则,在容易引起歧义时不简化。例如“余”和“馀”,
  《简化字总表》对“余”字的脚注说:“在余和馀意义可能混淆时,仍用馀,如
  文言句‘馀年无多’。”同时,有些汉字只简化其字义的某一个或几个义项,如
  “徵”,在“象徵”等义项上被简化为“征”,而在音乐调值的义项上(即宫商
  角徵羽的徵,读作zhǐ [止]),并不简化。因此在 GB 2312 中,保留了个别繁体
  (或异体)字,也就是说,同时收录了一个字的简体和繁体(或异体),这包括
  干乾、后後、伙夥、么麽、于於、余馀、折摺、征徵等。作为与 GB 2312 对应的
  繁体编码,GB/T 12345 在这些字上处理较混乱。例如:GB/T 12345 将“伙”置
  于 27-79,“夥”置于 66-23,与 GB 2312 编码相同,即,以“伙”对应“伙”,
  以“夥”对应“夥”。另一种情况是,GB/T 12345 将“後”置于 26-83,对应
  GB 2312 的“后”,将“后”置于 65-65,对应 GB 2312 的“後”;将“徵”置
  于 53-87,对应 GB 2312 的“征”,将“征”置于 65-71,对应 GB 2312 的
  “徵”,显然不当。
 
 
      注:
      1. 以上代码表,除 06、08 区增补符号用 GIF 图形编制外,其他均使用
  GBK 代码编制,只有在你的电脑能完全正确显示 GBK 汉字时,才能保证看到的
  上表与 GB/T 12345 标准印刷件(中国标准出版社 1991 年 10 月出版)相同的
  字形。
      2. 尽管满足查看 GBK 汉字的条件,仍有两个汉字的显示,与 GB/T 12345
  标准印刷件有所差异。两个字的代码为 47-22、80-89。
    第一字的印刷件字形,未列入有关简化字的法定文件,但习惯上被视为“
  隙”的繁体,而 GBK 编码未收录此字,无法显示,故以“隙”替代。第二字的
  印刷件字形,系对应简体“瘗”,按照《简化字总表》第二表《可作简化偏旁用
  的简化字和简化偏旁》,“夾”简化为“夹”,所以,“瘗”对应的繁体字,应

  该是“瘞”,同时,印刷件上的此字不见于字书,因此它可能是排版时的错误,
  故上表使用了“瘞”字。
    3. 01~15 区的符号和空白位置,除增补者以外,与 GB 2312 的符号、编
  码位置完全相同,故上表从略。
--
人在江湖飘,谁能不挨刀
 
发信人: strong (大拿~一蓑烟雨任平生), 信区: Chinese
标  题: 汉字编码:GBT (1)
发信站: BBS 水木清华站 (Sun Jan  2 14:32:05 2000)
 
 
                         GB/T 12345 汉字编码字符集
 
      GB/T 12345 和 GB 2312 一样,是中华人民共和国国家标准汉字信息交换用
  编码,全称《信息交换用汉字编码字符集 辅助集》,标准号为 GB/T 12345-
  90,中华人民共和国国家技术监督局 1990 年 6 月 13 日发布,1990 年 12 月
  1 日实施。
      GB/T 12345-90 是一个关于繁体汉字的编码标准。所谓“辅助集”,是与
  “基本集”(GB 2312-80)相对应而言。即:GB/T 12345“是与 GB 2312 相对
  应的图形字符集。原则上,本字符集是将 GB 2312 中的简化字用相应的繁体字
  替换而成。因此,这些替代的繁体字具有与被替代的简化字相同的编码;未曾简
  化的汉字以及非汉字图形字符,仍是 GB 2312 中的汉字及图形字符,并具有与
  之相同的编码。”
      关于繁体字替换简化字的原则,GB/T 12345 注明:“本标准原则上按照
  《简化字总表》中所列繁体字与简化字的对应关系进行替换。”《简化字总表》
  由中国文字改革委员会 1964 年 5 月发表,后经国家语言文字工作委员会作个
  别修订,国务院 1986 年 6 月 4 日批准重新发表。
 
      除了以上的根本差异外,GB/T 12345 与 GB 2312 的区别还有以下几点:
    1. 增补了个别图形字符,共收录 7583 个图形字符:汉字以外的图形字符
  716 个,汉字 6866 个(其中一级汉字 3755 个,二级汉字 3008 个,增补汉字
  103 个。
      a. “根据排版需要,增补了竖排标点符号 29 个,这些字符增补于 6 区
  57 位至 85 位。”
      b. “根据 GB 5007.1(《信息交换用汉字 24×24 点阵字模集》),增加
  了 6 个汉语拼音用图形字符,这些字符增补于 8 区 27 位至 32 位。”
      c. “GB 2312 中,由于 60 年代汉字简化被精简的字有 103 个,这些被精
  简的字根据繁体字处理系统的需要增补于 88~89 区。”所谓精简,即废除某个
  繁体字,而用另一字代替,如废除“雲”字,而以“云”字代替。由此形成一个
  简化字对应两个或两个以上繁体字的现象。
 
      2. GB/T 12345 规定的在七位环境中指明图形字符集的转义序列不同,同时
  规定了在八位环境中的转义序列。
 
      GB/T 12345 没有指明其字符集的字形依据,但它使用的繁体汉字,与《简
  化字总表》中所使用的字形一致。其绝大多数汉字,使用了“新字形”。例如,
  “产”的繁体字,它使用了新字形“産”,而不用旧字形“產”。因此,一些旧
  字形与新字形的差异,被视为字形的差异(异体字),而不是繁体与简体的差
  异。如:收录“奂”、“换”、“唤”,而不用“奐”、“換”、“喚”,即因
  为“奐”是旧字形,而非繁体字。但是,其中极个别字又使用了旧字形,如

  “为”“伪”的繁体字,使用了旧字形“爲”、“僞”,而不用新字形“為”、
  “偽”。?
      关于新旧字形,可参见中国社会科学院语言研究所编纂的《现代汉语词典》
  (商务印书馆 1978 年第一版)、《新华字典》(商务印书馆 1979 年修订版)
  所附的《新旧字形对照表》,以及辞海编辑委员会编纂的《辞海》(上海辞书出
  版社 1979 年出版)所附的《新旧字形对照举列》。
 
--
人在江湖飘懿话さ?
 
发信人: strong (大拿~一蓑烟雨任平生), 信区: Chinese
标  题: 汉字编码:GB
发信站: BBS 水木清华站 (Sun Jan  2 14:30:05 2000)
 
 
                        GB 2312 汉字编码字符集
 
      GB 2312 码是中华人民共和国国家标准汉字信息交换用编码,全称《信息交
  换用汉字编码字符集 基本集》,标准号为 GB 2312-80(GB 是“国标”二字
  的汉语拼音缩写),由中华人民共和国国家标准总局发布,1981年5月1日实施。
  习惯上称国标码、GB 码,或区位码。它是一个简化字汉字的编码,通行于中国
  大陆地区。新加坡等地也使用这一编码。
      GB 2312-80 收录简化汉字及一般符号、序号、数字、拉丁字母、日文假名、
  希腊字母、俄文字母、汉语拼音符号、汉语注音字母,共 7445 个图形字符。其
  中汉字以外的图形字符 682 个,汉字 6763 个。
      GB 2312-80 规定,“对任意一个图形字符都采用两个字节(Byte)表示。
  每个字节均采用 GB 1988-80 及 GB 2311-80 中的七位编码表示。两个字节中
  前面的字节为第一字节,后面的字节为第二字节。”习惯上称第一字节为“高字
  节”,第二字节为“低字节”。
      GB 2312-80 将代码表分为 94 个区(Section),对应第一字节;每个区
  94 个位(Position),对应第二字节。两个字节的值,分别为区号值和位号值
  各加 32(20H)。
      GB 2312-80 规定,01~09 区(原规定为 1~9 区,为表示区位码方便起
  见,今改称 01~09 区)为符号、数字区,16~87 区为汉字区。而 10~15
  区、88~94 区是有待于“进一步标准化”的“空白位置”区域。但第 10 区推
  荐与第 3 区的 94 个图形字符(即 GB 1988-80 中的 94 个图形字符)相同,
  字形宽度为其宽度的一半?
      GB 2312-80 把收录的汉字分成两级。第一级汉字是常用汉字,计 3755 个,
  置于 16~55 区,按汉语拼音字母/笔形顺序排列;第二级汉字是次常用汉字,
  计 3008 个,置于 56~87 区,按部首/笔画顺序排列。字音以普通话审音委员
  会发表的《普通话异读词三次审音总表初稿》(1963年出版)为准,字形以中华
  人民共和国文化部、中国文字改革委员会公布的《印刷通用汉字字形表》(1964
  年出版)为准。
 
      例:汉字“啊”,第一字节为 0110000,第二字节为 0100001,即 16 区、
  01 位,用 16-01 表示。
 
 
      注:
      1. 有些外挂式的中文平台,不能正确显示 01~15 区的空白位置。
      2. 02 区的 0201~0210、06 区的 0664~0685 和 08 区的 0827~0832 位
  置,在 GB 2312-80 中原本规定为有待于进一步标准化的空白位置。但如果你
  使用的操作系统为 Windows 95 简体中文版(及更高的版本),或者使用了其他
  支持 GBK 码、CJK 码的汉字系统,在某些情况下会看到以上位置分别为 10 个

  小写罗马数字、19 个中文竖排用符号和 6 个汉语拼音符号。这些符号系 GB
  5007.1、GB/T 12345-90 及 GBK 增补的符号,由于 Windows 95 简体中文版使
  用了 GBK 字体,所以显示出这些符号。此外第 10、11、12 区显示的汉字,也
  属类似的情况。
      3. GB 码的编码范围为 2121H~777EH,与 ASCII 码有重叠,通行将 GB 码
  两个字节的最高位均置 1(MSB=1),以示区别。因此,实际应用的 GB 码是 GB
  码高位置 1 后的变形码,编码范围为 0A1A1H~0F7FEH。如汉字“啊”,第一字
  节为 10110000,第二字节为 10100001。
--
人在江湖飘,谁能不挨刀
 
发信人: strong (大拿~一蓑烟雨任平生), 信区: Chinese
标  题: 汉字编码:HZ
发信站: BBS 水木清华站 (Sun Jan  2 14:38:35 2000)
 
    由于本人没有见到过正式的描述HZ编码的由来与规范的的文档,
只能根据我的了解做一简单介绍。
    HZ编码好象最初源于东南亚使用GB汉字编码的国家,目前只见
到其常被用于转换GB编码汉字。
    HZ编码并不是全新的编码方式,其核心思想就是将8位编码转换
成7位编码,以利于传送。其表现特征为:对第8位为1的字节或字节
串以~{为开头,以~}为结尾加以标明,中间内容经过编码,表现为
ASCII码。例如GB编码汉字,编码后的范围是2121h--777Eh。
--
人在江湖飘,谁能不挨刀
 
※ 来源:·BBS 水木清华站 smth.org·[FROM: 162.105.138.50]
 
 
 
 
 
 
发信人: strong (大拿~一蓑烟雨任平生), 信区: Chinese
标  题: 汉字编码:台湾地区的服务单位
发信站: BBS 水木清华站 (Sun Jan  2 14:48:39 2000)
 
 
                         服务项目及谘询之相关单位
 
 
一、本中心於CNS11643应用方面所提供之服务项目:
 
(一) 新增字之管理维护:使用者再增新字之搜集亦为本中心目前任务之一,
     拟定期分函各机关调查或经由网路搜集;视需要先订定使用者加字区交
     换码,确有长期使用之需要时再向中标局申请纳入国家标准。
(二) 标准字型档之提供:本中心目前负责CNS标准字型档之免费提供业务;
     只需自备足够之磁片等储存媒体,再填具一份切结书,即可迳至本中心
     研究训练组(台北市广州街二号)索取24*24、32*32或40*40字型档。
(三) 中文码对照档之提供:本中心为推动CNS之应用,自75年起即建置
     CNS11643之一、二字面(13,051个字)与国内常用10种中文内码对照档,
     免费提供各界作转码使用;只需自备磁片等储存媒体即可免费索取。 
(四) 应用问题谘询:CNS11643之应用推广为本中心之重要任务,除对其应用
     方面提供有关之讯息外,并尽力协助解决使用时产生之有关问题;洽询
     专线电话:(02)2382-3751,传真:(02)2382-6621、2383-2580。

 
二、BIG5+码之应用谘询
 
        如有关於BIG5+码之使用疑问及建议,请与中文电脑推广基金会(电
    话:02-25778779)、行政院研考会(电话:02-23419066*812)或本中心(电
    话:02-23823751)联系。
 
三、EUC码之应用谘询
 
        如有关於EUC码之应用谘询,请直接与内政部户役政资讯推广小组
    (电话02-2349-6556)或本中心(电话:02-23823751)联系。
 
四、 ISO10646及UNICODE之应用谘询
 
        如有关於ISO10646及UNICODE之谘询,请与资讯工业策进会推广服
    务处(电话:02-25631688、25422540*137)或本中心(电话:
    02-23823751)联系。
--
人在江湖飘,谁能不挨刀
 
发信人: beity (梦见化蝶), 信区: Chinese
标  题: 汉字的Unicode编码问题
发信站: BBS 水木清华站 (Thu Mar  2 16:08:30 2000)
 
说是为了跟ASCII编码兼容,有什么规律吗?
比如怎样才能判定一个代码是汉字?而不是英文字母?
偶以前处理汉字用的是GB吗,
现在JAVA里用Unicode表示,不知怎么办
 
--
※ 来源:·BBS 水木清华站 smth.org·[FROM: 7_32.xjtu.edu.c]
发信人: bun (狗剩), 信区: Chinese
标  题: Re: 汉字的Unicode编码问题
发信站: BBS 水木清华站 (Thu Mar  2 22:29:58 2000)
 
在UNICODE中汉字和英文字母都是两个字节,英文字母第一个字节是ASCII码,第二个
字节是0,而汉字两个字节均不为0。
 
【 在 beity (梦见化蝶) 的大作中提到: 】
: 说是为了跟ASCII编码兼容,有什么规律吗?
: 比如怎样才能判定一个代码是汉字?而不是英文字母?
: 偶以前处理汉字用的是GB吗,
: 现在JAVA里用Unicode表示,不知怎么办
 
 
--
※ 来源:·BBS 水木清华站 smth.org·[FROM: 166.111.11.222]
发信人: beity (梦见化蝶), 信区: Chinese
标  题: Re: 汉字的Unicode编码问题
发信站: BBS 水木清华站 (Fri Mar  3 11:31:01 2000)
 
谢谢
但如何区别标点符号和汉字
 
【 在 bun (狗剩) 的大作中提到: 】
: 在UNICODE中汉字和英文字母都是两个字节,英文字母第一个字节是ASCII码,第二个
: 字节是0,而汉字两个字节均不为0。
 
 
--
※ 来源:·BBS 水木清华站 smth.org·[FROM: 7_32.xjtu.edu.c]
发信人: cirrus (飘飘荡荡望眼欲穿千万盏街灯都为我点亮), 信区: Chinese
标  题: Re: 汉字的Unicode编码问题
发信站: BBS 水木清华站 (Fri Mar  3 11:37:54 2000)
 
 
 
 
一般来说,比较现代一点的libc里有扩展的
isxxxxx系列函数,可以用来判断某个字符
(宽字符或多字节字符)属于哪个种类,就
象以前的isalpha()之类的一样。
这些函数本质上是由查表实现的。
 
【 在 beity (梦见化蝶) 的大作中提到: 】
: 谢谢
: 但如何区别标点符号和汉字
 
 
--
※ 来源:·BBS 水木清华站 smth.org·[FROM: 210.32.137.16]
发信人: bun (狗剩), 信区: Chinese
标  题: Re: 汉字的Unicode编码问题
发信站: BBS 水木清华站 (Fri Mar  3 23:36:41 2000)
 
你指的使全角的标点吧?

这只能通过编码范围来判断了,应该很容易找出去规律的。
 
【 在 beity (梦见化蝶) 的大作中提到: 】
: 谢谢
: 但如何区别标点符号和汉字
 
 
--
发信人: cirrus (飘飘荡荡望眼欲穿千万盏街灯都为我点亮), 信区: Chinese
标  题: Re: 汉字的Unicode编码问题
发信站: BBS 水木清华站 (Fri Mar  3 11:37:54 2000)
 
 
 
 
一般来说,比较现代一点的libc里有扩展的
isxxxxx系列函数,可以用来判断某个字符
(宽字符或多字节字符)属于哪个种类,就
象以前的isalpha()之类的一样。
这些函数本质上是由查表实现的。
 
【 在 beity (梦见化蝶) 的大作中提到: 】
: 谢谢
: 但如何区别标点符号和汉字
 
 
--
※ 来源:·BBS 水木清华站 smth.org·[FROM: 210.32.137.16]
 
 
发信人: strong (大拿~一蓑烟雨任平生), 信区: Chinese
标  题: 汉字编码:ISO10646与UNICODE
发信站: BBS 水木清华站 (Sun Jan  2 14:47:28 2000)
 
 
                           ISO10646及UNICODE
 
一、字码架构
 
    ISO10646及UNICODE均为多国语文内码系统
    ISO10646之汉字码长度:4 BYTE
    UNICODE 之汉字码长度:2 BYTE
    新版UNICODE之汉字码长度:2-4 BYTE
 
二、与CNS11643之关系
 
        字集相容但字序不同:ISO10646及UNICODE之汉字集目前共收编20,902
    个汉字,其中17,011个系来自CNS字集(包括第1、第2字面字集全部及第3
    字面字集3,895字、第4字面字集56字),明年将再增编CNS的5,881个字。
        我国国家标准得与国际标准相容:除可增强国内电脑业者在国际市场
    之竞争力外,将来ISO10646或UNICODE发展成熟後,使用者亦可得以顺利
    转换。

 
三、应用现况
 
        微软:已决定应用新版UNICODE於即将推出之WIN 98及WINDOWS NT等
    产品中。
        IBM、HP等:则将与微软同步。
--
人在江湖飘,谁能不挨刀

推荐一篇js好文.doc

  • 2008年09月09日 20:36
  • 87KB
  • 下载

关于mount/samba/字符集的两篇好文

第一篇:字符集和编码II: fat/msdos/vfat(链接至原作者博客) 具体到文件名乱码的问题,需要明确两点 第一,文件名作为一个字符串,需要被编码后存入文件系统; 第二,Li...
  • tsx86
  • tsx86
  • 2013年11月13日 21:54
  • 2284

一篇好文,以在迷茫时品味…………

我有个有趣的观察,外企公司多的是25-35岁的白领,40岁以上的员工很少,二三十岁的外企员工是意气风发的,但外企公司40岁附近的经理人是很尴尬的。我见过的40岁附近的外企经理人大多在一直跳槽,最后大多...

一篇好文: VHDL 编程的一些心得体会

VHDL 是由美国国防部为描述电子电路所开发的一种语言,其全称为(Very High Speed Integrated Circuit) Hardware Description Language。 ...

转载一篇好文:NuGet 使用教程

程序员,用NuGet管理好你的包包 每个女人都有很多包包;其实男人也有,但只有会写程序的男人才有 —— 代码世界中的大“包”小“包”。这些大包小包,有花钱买的,有从开源市场淘的,也有...

深入了解Unicode和UTF-8(一篇好文)(转)

在开发中,总是时不时地被文件的编码问题绊一下,根本原因还是对编码理解的不透彻,转一篇相关文章做收藏参考。   字符编码笔记:ASCII,Unicode和UTF-8                 ...

(一篇好文,转自微型计算机)猎杀X86--NVIDIA、ARM、微软携手迈向云时代

NVIDIA、ARM、微软携手迈向云时代 张健浪《微型计算机》2011年2月上2011-03-14 在CES 2011之前,所有的业界分析家都对NVIDIA的前途表示悲观:它没有自身的计算平台,图...

一篇绝世好文 - Linux内核抢占实现机制分析

本文详解了Linux内核抢占实现机制。首先介绍了内核抢占和用户抢占的概念和区别,接着分析了不可抢占内核的特点及实时系统中实现内核抢占的必要性。然后分析了禁止内核抢占的情况和内核抢占的时机,最后介绍了实...

梅西,只是梅西(转载一篇好文)

一家奇文:《我是 莱奥内尔·梅西,只是梅西》  (2011-08-22 23:12:04) 转自: 天涯一家    作者: 戴假发的南瓜     1.   桑切斯来了...
  • jackhjb
  • jackhjb
  • 2011年10月08日 16:55
  • 4478

华为内部狂转好文:有关大数据,看这一篇就够了

导读)科技的进步在很多的时候总会超出我们的想象,如果未来我们一个人拥有的电脑设备超过现在全球现在计算能力的总和,一个人产生的数据量超过现在全球数据量的总和,甚至你的宠物小狗产生的信息量都超过现在全球数...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:字符集的一篇好文,收之
举报原因:
原因补充:

(最多只允许输入30个字)