UNICODE汉字数据库

 

 

 

 

 

 

UNICODE汉字数据库

 

版本

5.0.0

作者

John Jenkins(井作恆)、Richard Cook(曲理查)

发布日期

2006-07-10

当前版本

http://www.unicode.org/Public/5.0.0/ucd/Unihan.html

上一版本

http://www.unicode.org/Public/4.1.0/ucd/Unihan.html

最新版本

http://www.unicode.org/Public/UNIDATA/Unihan.html

 

原文:http://www.unicode.org/Public/5.0.0/ucd/Unihan.html

译文:北大中文论坛http://www.pkucn.com

译者:韦剑

整理:nivana9992009-5-31

1.   译序

本文作为对unicode汉字数据库文件unihan.txt格式的分析和解读,列出并解释了文件中的常用属性,如kGB0(GB2312-80的区位码映射)kMandarin(unicode编码对应汉字的汉语拼音)

Unihan.txt文件描述了每个unicode编码包含的众多属性,这些属性包括各种字符编码的映射关系、英文释意、字典索引、中文笔画、部首、汉语拼音等等。用户可根据这些属性生成自己的汉字数据库、字符编码映射表、输入法字典映射表等。

以下给出unihan.txt中一个unicode编码的格式实例,‘#‘后为注释:

U+4E00   kBigFive  A440       #big5

U+4E00   kCCCII   213021    #kCCCII编码

U+4E00   kCNS1986      1-4421    #kCNS1986编码

U+4E00   kCNS1992      1-4421    #kCNS1992编码

U+4E00   kCangjie  M                  #倉頡输入法编码

U+4E00   kCantonese     jat1

U+4E00   kCihaiT   1.101

U+4E00   kCowles  5133

U+4E00   kDaeJaweon   0129.010

U+4E00   kDefinition      one; a, an; alone     #英文解释(此字意为1)

U+4E00   kEACC    213021

U+4E00   kFenn     1A

U+4E00   kFennIndex    216.01 217.06 218.01 220.06

U+4E00   kFourCornerCode   1000.0

U+4E00   kFrequency    1     #使用频度(1为最高)

U+4E00   kGB0      5027       #GB2312-80中的区位码

U+4E00   kGB1      5027       #GB12345-90中的区位码

 

U+4E00   kGSR      0394a

U+4E00   kGradeLevel   1

U+4E00   kHDZRadBreak      [U+2F00]:10001.010

U+4E00   kHKGlyph      0001

U+4E00   kHanYu   10001.010

U+4E00   kHangul  

U+4E00   kHanyuPinlu   yi1(32747)      #汉语出现的频率

U+4E00   kIICore   2.1

U+4E00   kIRGDaeJaweon    0129.010

U+4E00   kIRGDaiKanwaZiten      00001

U+4E00   kIRGHanyuDaZidian      10001.010

U+4E00   kIRGKangXi   0075.010

U+4E00   kIRG_GSource      0-523B

U+4E00   kIRG_JSource       0-306C

U+4E00   kIRG_KPSource    KP0-FCD6

U+4E00   kIRG_KSource      0-6C69

U+4E00   kIRG_TSource      1-4421

U+4E00   kIRG_VSource      1-4A21

U+4E00   kJapaneseKun HITOTSU HITOTABI HAJIME

U+4E00   kJapaneseOn   ICHI ITSU

U+4E00   kJis0       1676

U+4E00   kKPS0    FCD6

U+4E00   kKSC0    7673

U+4E00   kKangXi  0075.010

U+4E00   kKarlgren       175

U+4E00   kKorean  IL

U+4E00   kLau       3341

U+4E00   kMainlandTelegraph       0001

U+4E00   kMandarin      YI1         #汉语拼音(yi的第一声,第二声为yi2)

U+4E00   kMatthews     3016

U+4E00   kMeyerWempe       3837

U+4E00   kMorohashi    00001

U+4E00   kNelson   0001

U+4E00   kPhonetic       1499

U+4E00   kPrimaryNumeric   1

U+4E00   kRSAdobe_Japan1_6     C+1200+1.1.0

U+4E00   kRSKangXi     1.0

U+4E00   kRSUnicode    1.0

U+4E00   kSBGY    468.40

U+4E00   kSemanticVariant    U+5F0C<kLau,kMatthews,kMeyerWempe U+58F9<kLau,kMatthews,kMeyerWempe

U+4E00   kSpecializedSemanticVariant  U+58F9

U+4E00   kTaiwanTelegraph  0001

U+4E00   kTang     *qit qit

U+4E00   kTotalStrokes  1                   #笔画数

U+4E00   kVietnamese    nhất

U+4E00   kXHC1983     1351.020:yī 1360.040:yí 1368.160:yì

U+4E00   kXerox    241:042

2.   摘要

本文分析了Unicode字符数据库(UCD里的Unihan.txt文件的格式和内容。

3.   关于本文

本文和本文中所指的文件属于Unicode字符数据库的一部分,统一受Unicode标准资源使用协议(http://www.unicode.org/terms_of_use.html)的管理。

文末所列的参考资料 提供了有助于理解本文所需的一些相关知识。

注意:本文所要解释的Unicode字符属性和作用的用法并不完全都由本文给出,有时可能会要结合Unicode字符数据库里面其他文件的数据来使用,这种数据链接所需的符号及其定义请参考Unicode标准。除非特别说明,本文所提及的字符均来自Unicode标准5.0版。

4.   目录

1.     摘要.... 1

2.     关于本文.... 1

3.     目录.... 1

4.     文档结构.... 3

字段1数据含义... 3

字段2数据含义... 3

字段3数据含义... 3

5.     Unihan属性.... 4

5.1.    Unihan属性列表(按字母顺序排列)... 4

5.2.    Unihan属性分类... 5

字典索引... 5

字典素材... 5

IRG字源资料... 5

数值... 5

与其他编码字符集的映射... 5

部首/笔画数... 5

变体... 6

5.3.    Unihan属性分级... 6

常规... 6

资料... 6

暂定... 6

5.4.    属性详解... 6

kAccountingNumeric (财会数字)... 6

kBigFiveBig5编码)... 7

kCCCIICCCII编码)... 7

kCNS1986CNS 11643-1986编码)... 8

kCNS1992CNS 11643-1992编码)... 8

kCangjie(仓颉码)... 8

kCantonese(广东话读音)... 9

kCheungBauerCheungBauer资料)... 10

kCheungBauerIndexCheungBauer索引)... 10

kCihaiT(《辞海》索引)... 11

kCompatibilityVariant(相容变体)... 11

kCowlesCowles索引)... 12

kDaeJaweon(《大字源》索引)... 12

kDefinition(英文释义)... 13

kEACCEACC编码)... 13

kFennFenn资料)... 14

kFennIndexFenn索引)... 14

kFourCornerCode(四角号码)... 15

kFrequency(频度等级)... 15

kGB0GB 2312-80区位码)... 16

kGB1GB 12345-90区位码)... 17

kGB3GB 7589-87区位码)... 17

kGB5GB 7590-87区位码)... 17

kGB7GB 8565-89区位码)... 18

kGB8GB 8565-89区位码)... 18

kGSR(《漢文典(修訂本)》索引)... 18

kGradeLevel(香港汉字教学水平等级)... 20

kHDZRadBreak(《汉语大字典》部首字头索引)... 20

kHKGlyph(香港《常用字字形表》索引)... 21

kHKSCS(香港增补字符集Big5编码)... 21

kHanYu(《汉语大字典》索引)... 22

kHangul(谚文注音)... 23

kHanyuPinlu(现代汉语读音频率)... 23

kIBMJapanIBM日文编码)... 25

kIICore(国际表意文字核心集资料)... 25

kIRGDaeJaweon(四字典定序用《大字源》索引)... 26

kIRGDaiKanwaZiten(四字典定序用《大汉和辞典》索引)... 26

kIRGHanyuDaZidian(四字典定序用《汉语大字典》索引)... 27

kIRGKangXi(四字典定序用《康熙字典》索引)... 28

 

5.   文档结构

Unihan.txt文件数据正文中的每条记录都由三个字段组成,各字段之间用Tab制表符分开。

字段1数据含义

形如U+[X]XXXX 这样的Unicode编码点(即U+前缀的后面加上4个或5个十六进制数字)。

字段2数据含义

说明记录中第三个字段数据的类型或来源。

字段3数据含义

本条记录的(关键)数据值(UTF-8格式,事实上整个Unihan.txt都是UTF-8编码格式的)。

下表列出了Unihan.txt中字段1的汉字编码点有效取值范围:

编码点范围

区域名称

首发版本

U+3400..U+4DB5

中日韩统一表意文字扩展集A

3.0

U+4E00..U+9FA5

中日韩统一表意文字

1.1

U+9FA6..U+9FBB

中日韩统一表意文字

4.1

U+F900..U+FA2D

中日韩相容表意文字

1.1

U+FA30..U+FA6A

中日韩相容表意文字

3.2

U+FA70..U+FAD9

中日韩相容表意文字

4.1

U+20000..U+2A6D6

中日韩统一表意文字扩展集B

3.1

U+2F800..U+2FA1D

增补中日韩相容表意文字

3.1

Unihan.txt没有包括以下范围的中日韩字符的数据:

编码点范围

区域名称

首发版本

U+2E80..U+2E99

增补中日韩部首

3.0

U+2E9B..U+2EF3

增补中日韩部首

3.0

U+2F00..U+2FD5

康熙部首

3.0

U+3000..U+303F

中日韩标点符号

多次修订

U+3200..U+3243

附加标记的中日韩文字和月份

多次修订

U+3250..U+32FE

附加标记的中日韩文字和月份

多次修订

U+3300..U+33FF

中日韩相容文字

多次修订

6.   Unihan属性

下面将列出Unihan.txt的所有属性标记,并通过一个表格给出有关这些属性的信息。在Unihan属性中只有少数属于Unicode常规或资料属性,其余的则属于暂定属性。有关常规(Normative资料(Informative暂定(Provisional三个属性分级标志的更多内容,请查阅Unicode 5.0[U5.0]标准文档第三章属性一节中D33D35D36三个名词解释条目的定义。有关属性和Unicode字符数据库的一般结构的更多内容,请查阅UCD.html

6.1.      Unihan属性列表(按字母顺序排列)

kAccountingNumerickBigFivekCCCIIkCNS1986kCNS1992kCangjiekCantonesekCheungBauerkCheungBauerIndexkCihaiTkCompatibilityVariantkCowleskDaeJaweonkDefinitionkEACCkFennkFennIndexkFourCornerCodekFrequencykGB0kGB1kGB3kGB5kGB7kGB8kGSRkGradeLevelkHDZRadBreakkHKGlyphkHKSCSkHangulkHanYukHanyuPinlukIBMJapankIICorekIRGDaeJaweonkIRGDaiKanwaZitenkIRGHanyuDaZidiankIRGKangXikIRG_GSourcekIRG_HSourcekIRG_JSourcekIRG_KPSourcekIRG_KSourcekIRG_TSourcekIRG_USourcekIRG_VSourcekJIS0213kJapaneseKunkJapaneseOnkJis0kJis1kKPS0kKPS1kKSC0kKSC1kKangXikKarlgrenkKoreankLaukMainlandTelegraphkMandarinkMatthewskMeyerWempekMorohashikNelsonkOtherNumerickPhonetickPrimaryNumerickPseudoGB1kRSAdobe_Japan1_6kRSJapanesekRSKanWakRSKangXikRSKoreankRSUnicodekSBGYkSemanticVariantkSimplifiedVariantkSpecializedSemanticVariantkTaiwanTelegraphkTangkTotalStrokeskTraditionalVariantkVietnamesekXeroxkZVariant

6.2.      Unihan属性分类

字典索引

kCheungBauerIndexkCihaiTkCowleskDaeJaweonkFennIndexkGSRkHanYukIRGDaeJaweonkIRGDaiKanwaZitenkIRGHanyuDaZidiankIRGKangXikKangXikKarlgrenkLaukMatthewskMeyerWempekMorohashikNelsonkSBGY

字典素材

kCangjiekCantonesekCheungBauerkDefinitionkFennkFourCornerCodekFrequencykGradeLevelkHangulkHanyuPinlukHDZRadBreakkHKGlyphkIICorekJapaneseKunkJapaneseOnkKoreankMandarinkPhonetickTangkTotalStrokeskVietnamese

IRG字源资料

kIRG_GSourcekIRG_HSourcekIRG_JSourcekIRG_KPSourcekIRG_KSourcekIRG_TSourcekIRG_USourcekIRG_VSource

数值

kAccountingNumerickOtherNumerickPrimaryNumeric

与其他编码字符集的映射

kBigFivekCCCIIkCNS1986kCNS1992kEACCkGB0kGB1kGB3kGB5kGB7kGB8kHKSCSkIBMJapankJIS0213kJis0kJis1kKPS0kKPS1kKSC0kKSC1kMainlandTelegraphkPseudoGB1kTaiwanTelegraphkXerox

部首/笔画数

kRSAdobe_Japan1_6kRSJapanesekRSKanWakRSKangXikRSKoreankRSUnicode

变体

kCompatibilityVariantkSemanticVariantkSimplifiedVariantkSpecializedSemanticVariantkTraditionalVariantkZVariant

6.3.      Unihan属性分级

常规

kCompatibilityVariantkIICorekIRG_GSourcekIRG_HSourcekIRG_JSourcekIRG_KPSourcekIRG_KSourcekIRG_TSourcekIRG_USourcekIRG_VSource

资料

kAccountingNumerickOtherNumerickPrimaryNumerickRSUnicode

暂定

 

kBigFivekCCCIIkCNS1986kCNS1992kCangjiekCantonesekCheungBauerkCheungBauerIndexkCihaiTkCowleskDaeJaweonkDefinitionkEACCkFennkFennIndexkFourCornerCodekFrequencykGB0kGB1kGB3kGB5kGB7kGB8kGSRkGradeLevelkHDZRadBreakkHKGlyphkHKSCSkHangulkHanYukHanyuPinlukIBMJapankIRGDaeJaweonkIRGDaiKanwaZitenkIRGHanyuDaZidiankIRGKangXikJIS0213kJapaneseKunkJapaneseOnkJis0kJis1kKPS0kKPS1kKSC0kKSC1kKangXikKarlgrenkKoreankLaukMainlandTelegraphkMandarinkMatthewskMeyerWempekMorohashikNelsonkPhonetickPseudoGB1kRSAdobe_Japan1_6kRSJapanesekRSKanWakRSKangXikRSKoreankSBGYkSemanticVariantkSimplifiedVariantkSpecializedSemanticVariantkTaiwanTelegraphkTangkTotalStrokeskTraditionalVariantkVietnamesekXeroxkZVariant

 

6.4.      属性详解

kAccountingNumeric (财会数字)

属性

kAccountingNumeric (财会数字)

分类

数值

分级

资料

记录数

24

数据值格式

分隔符

空格

语法

[0-9]+

首发版本

3.2

说明

在记录数据信息的时候,这类字符可以表示出数值的含义。在东亚地区的书面资料中,专用的财会数字通常可以起到数值表示上的不可篡改的作用。比如十(10),只要多加一笔就可以很容易地被改成千(1000),所以在对数值数据文本要求严谨的金融类文档中,规定必须使用专门的财会数字来表示10这个数。Unihan的三种数值属性不会重复定义,也就是说如果一个字符定义了kAccountingNumeric属性,那它肯定就不会定义kPrimaryNumerickOtherNumeric属性,另外两个亦然。

kBigFiveBig5编码)

属性

kBigFiveBig5编码)

分类

与其他编码字符集的映射

分级

暂定

记录

13063

数据值格式

分隔符

空格

语法

[0-9A-F]{4}

说明

某个汉字在Big5字符集中的十六进制编码。注意:这里的Big5指的是最初版本的Big5编码字符集,不包括任何通用的Big5扩展字符集,即使最常见的倚天扩充字集也是一样。

备注:Uinhan数据库只收集汉字的属性资料,因此它的kBigFive属性中只包含了汉字的数据。如果想要得到Big5编码字符集中除汉字外其它字符的编码数据的话,可参考以下相关链接中的资料

kCCCIICCCII编码)

属性

kCCCIICCCII编码)

分类

与其他编码字符集的映射

分级

暂定

记录数

19698

数据值格式

分隔符

空格

语法

[0-9A-F]{6}

说明

某个汉字在CCCII字符集中的十六进制编码。

 

kCNS1986CNS 11643-1986编码)

 

属性

kCNS1986CNS 11643-1986编码)

分类

与其他编码字符集的映射

分级

暂定

记录数

17258

数据值格式

分隔符

空格

语法

[12E]-[0-9A-F]{4}

说明

某个汉字在CNS 11643-1986字符集中的十六进制编码。

 

kCNS1992CNS 11643-1992编码)

 

属性

kCNS1992CNS 11643-1992编码)

分类

与其他编码字符集的映射

分级

暂定

记录数

17258

数据值格式

分隔符

空格

语法

[123]-[0-9A-F]{4}

说明

某个汉字在CNS 11643-1992字符集中的十六进制编码。

 

kCangjie(仓颉码)

属性

kCangjie(仓颉码)

分类

字典素材

分级

暂定

记录数

29147

数据值格式

分隔符

空格

语法

[A-Z]+

首发版本

3.1.1

说明

某个汉字的倉頡输入法编码。倉頡码数据来源于Christian Wittern编写的cangjie-table.b5文档。

 

kCantonese(广东话读音)

 

属性

kCantonese(广东话读音)

分类

字典素材

分级

暂定

记录数

20014

数据值格式

分隔符

空格

语法

[a-z]+[1-6]

说明

用粤拼方案(即香港语言学学会粤语拼音方案,简称粤拼)罗马字拼写法标注的汉字的广东话读音。

粤拼方案和耶鲁方案(译注:在Unihan 4.1版以前,kCantonese属性数据是以耶鲁式粤语罗马拼音方案为依据的)之间的主要区别在于:1) 粤拼会给出全部的声调标号并且不区分阳去和阳平音;2) 粤拼把长音的a写作aa3) 粤拼对应耶鲁元音eu的是oeeo4) 粤拼使用c代替chz代替j,以及用j代替y作为声母;5) 粤拼不省略声母(因此耶鲁式的yut在粤拼中写为jyut)。

这里收录的广东话读音按照字母顺序排列,而不是使用频率。

注意:根据说话人和语言环境的不同,香港地区的广东话是有可能不出现NG-声母的,因而许多不带声母的发音可以简单地加上一个NG-声母讲出来。类似的,很多人在讲话的时候习惯用声母L-来代替N-

广东话读音数据来自以下资料:CaseyG. HughS.J.整理的一万字字典;香港:KelleyWalsh1980(参考kPhonetic属性说明);  Cheung Kwan-hinRobert S. Bauer合著的《广东话的汉字标注法》(刊于《汉语语言学论丛》2002年第18期);Roy T. Cowles编《广东话袖珍字典》(香港大学出版社1999年版,有关该字典的更多内容,请参考kCowles属性的说明);Sidney Lau编《实用粤英字典》(香港政府印务局1977年版,有关该字典的更多内容,请参考kLau属性的说明);Bernard F. MeyerTheodore F. Wempe编《学生用粤英字典》(由总部位于美国纽约的玛利诺外方传教会1947年出版,有关该字典的详情请见kMeyerWempe属性的说明);饒秉才编《廣州音字典》,Joint Publishing (H.K.) Co., Ltd., 1989年版; 《中華新字典》,香港中華書局1987年版; 黃港生编《商務新詞典》,香港商務印書館1991版;《朗文初級中文詞典》,朗文香港2001年版。

粤拼方案由香港语言学学会制定,其版权归属该学会。很高兴粤拼工作组能允许我们在产品研发过程中使用他们的电子资源。希望那些应用了Unihan数据库中kCantonese属性数据的产品或作品能在适当的位置上对粤拼工作组同样地致以感谢。

 

kCheungBauerCheungBauer资料)

 

属性

kCheungBauerCheungBauer资料)

分类

字典素材

分级

暂定

记录数

808

数据值格式

分隔符

语法

属性数据由三部分组成,其中用分号;隔开:(1) 汉字的三位数部首笔画索引、斜杠/和两位数的笔画总数;(2) 汉字的仓颉码输入法编码(如果有的话);(3) 用逗号,隔开的粤拼式广东话读音表,采用拼音的字母顺序排列。

首发版本

5.0

说明

Cheung Kwan-hinRobert S. Bauer合著的《广东话的汉字标注法》(收录于《汉语语言学论丛》2002年第18期)中整理出的汉字属性数据。

 

kCheungBauerIndexCheungBauer索引)

 

属性

kCheungBauerIndexCheungBauer索引)

分类

字典索引

分级

暂定

记录数

808

数据值格式

分隔符

空格

语法

[0-9]{3}/.[0-9][0-9]{2}

首发版本

5.0

说明

某个汉字在Cheung Kwan-hinRobert S. Bauer合著的《广东话的汉字标注法》(收录于《汉语语言学论丛》2002年第18期)中的讨论位置。数据格式为三位数的页码和两位数的字序,中间用句点.隔开。

比如,数据值402.06表示402页第6字。

 

kCihaiT(《辞海》索引)

 

属性

kCihaiT(《辞海》索引)

分类

字典索引

分级

暂定

记录数

13883

数据值格式

分隔符

空格

语法

[1-9][0-9]{0,3}/.[0-9]{3}

首发版本

3.2

说明

某个汉字在《辭海》--單卷本,香港中華書局1983年版(重印1947年版),ISBN 962-231-005-2--中的位置,用十进制数表示。数据值由前后两部分组成,中间用句点.隔开。句点前面的数字表示页码;句点后面第一位数字表示页内第几行,第二、三位表示行内第几字

比如,数据值37.103表示37页第1行第3

 

kCompatibilityVariant(相容变体)

 

属性

kCompatibilityVariant(相容变体)

分类

变体

分级

常规

记录数

997

数据值格式

分隔符

空格

语法

U/+2?[0-9A-F]{4}

首发版本

3.2

说明

某个汉字另一个相容的变体汉字的Unicode编码,编码数据来自UnicodeData.txt文件(译者注:Unicode公共数据文件中的一个,它记录了最新版本的Unicode编码字符集中所有确定分配有字符或符号的编码点。这个文件可以在Unicode网站的http://www.unicode.org/Public/UNIDATA/目录下找到)。

 

kCowlesCowles索引)

 

属性

kCowlesCowles索引)

分类

字典索引

分级

暂定

记录数

4821

数据值格式

分隔符

空格

语法

[0-9]{1,4}(/.[0-9]{1,2})?

首发版本

3.1.1

说明

某个汉字在Roy T. Cowles编《广东话袖珍字典》(香港大学出版社1999年版)中的位置。

Cowles字典索引一般为整数,但也有少部分为小数,这是根据具体的位置来决定的。在这些索引中缺少12224949,以及四个被Cowles字典收录了的苏州码子(这几个字在Unicode编码字符集中也收录有):2964(〥 U+3025)、3197(〨 U+3028)、3574(〣 U+3023)和4720(〧 U+3027)。

目前大概还有100Cowles中的字已经由Unicode提交给了IRG但还没有正式确定收录进Unicode编码字符集。

 

kDaeJaweon(《大字源》索引)

 

属性

kDaeJaweon(《大字源》索引)

分类

字典索引

分级

暂定

记录数

16026

数据值格式

分隔符

空格

语法

[0-9]{4}/.[0-9]{2}[0158]

说明

某个汉字在《大字源》(韩国)中的位置,此字典是Unicode用来确定汉字编码顺序的四本字典之一。此位置信息的格式为页码.页内第几字,其中如果代表页内第几字的数字的最后一位为0的话,就表示这个汉字实际存在于字典之中;如果为1的话就表示这个汉字没有实际存在于字典之中,这是一个虚设的汉字位置,意思是如果字典中有这个字的话,那它就应该出现在这里。

比如,位置信息1187.060表示1187页第6字(实字)。如果想要表示一个字典中没有的字,但根据排序规则可以在1187页的第6和第7字之间给它虚设一个位置的话,那么位置信息就应该写为1187.061

这里使用的《大字源》版本为Samseong出版社1988年版第一版。

 

kDefinition(英文释义)

 

属性

kDefinition(英文释义)

分类

字典素材

分级

暂定

记录数

20609

数据值格式

分隔符

空格

语法

对于专用于除现代普通话之外的其他汉语方言(比如广东话)或非汉语(比如日语)的含义,会在解说文本中加上类似(Cant)或(J)那样的标记。

主要含义之间用分号;隔开,次级含义之间用逗号,隔开。除了Tab制表符、双引号和任何断行符之外,释义文本中可以使用任何有效的Unicode字符。

说明

某个汉字的英文释义。这些汉字含义解释是根据现代书面汉语得来的,因此它们大体上(但非绝对)跟其它汉语字典或非汉语字典中的定义是一样的。在本属性的某些记录数据中,还指出了该汉字的同义字。

更全面的汉字变体信息,则需要参考变体类属性的数据了。

 

kEACCEACC编码)

 

属性

kEACCEACC编码)

分类

与其他编码字符集的映射

分级

暂定

记录数

13244

数据值格式

分隔符

空格

语法

[0-9A-F]{6}

说明

某个汉字在EACC字符集中的十六进制编码。

 

kFennFenn资料)

 

属性

kFennFenn资料)

分类

字典素材

分级

暂定

记录数

5075

数据值格式

分隔符

空格

语法

[0-9]+a?[A-KP*]

首发版本

3.1.1

说明

五千字字典(aka Fenn的袖珍汉英字典)上记载的汉字资料。该字典是由麻省剑桥区哈佛大学的Courtenay H. Fenn 所编,采用哈佛大学出版社1979年版。

属性数据值由一个十进制数加上一个AK之间的字母、字母P或星号*组成,其中:十进制数表示该汉字读音的Soothill音素分组编号;而字母则表示一个大概的频率值,A指最多有500个发相同音的字,频率值的增量为500(即B1000C1500,依此类推一直到K)。

字母PFenn字典中表示一个罕用字,仅作为其他字的声旁(语音元素)来使用。

如果记录数据最后出现的是星号而非字母,则表示该汉字属于Soothill音素分组中的一个,但它没有收录在Fenn字典中。

拥有频率字母但没有Soothill音素分组信息的数据被赋予0分组(即数据值中开头那个十进制数为0)。

 

kFennIndexFenn索引)

 

属性

kFennIndexFenn索引)

分类

字典索引

分级

暂定

记录数

5937

数据值格式

分隔符

空格

语法

[1-9]{3}/.[01][0-9]

说明

某个汉字在五千字字典(aka Fenn的袖珍汉英字典)中的记录位置。该字典是由麻省剑桥区哈佛大学的Courtenay H. Fenn 所编,采用哈佛大学出版社1942年版。

位置信息由一个三位数的页码和一个两位数的页内位置组成,中间用句点.隔开。

 

kFourCornerCode(四角号码)

 

属性

kFourCornerCode(四角号码)

分类

字典素材

分级

暂定

记录数

16256

数据值格式

分隔符

空格

语法

[0-9]{4}(/.[0-9])?

首发版本

5.0

说明

某个汉字的四角号码。数据来源自公共领域,由Hartmut BohnUrs AppChristian Wittern提供。四角号码系统为每个字确定了一个四位数的号码,每位数字的取值为09,分别表示汉字四个角(左上、右上、左下、右下)的十种笔形。可以选择第五位数字来更细致地区分汉字,第五位数字取的是汉字的中间或靠近第四角内侧的笔形。四角号码系统现在已经用得比较少了,有关它的更多资料,请参考这里

属性数据值由四位十进制数,和句点.以及第五位数字(如果有的话)组成。

 

kFrequency(频度等级)

 

属性

kFrequency(频度等级)

分类

字典素材

分级

暂定

记录数

5089

数据值格式

分隔符

空格

语法

[1-5]

首发版本

3.2

说明

对某个汉字在繁体中文网络新闻组上的出现频率进行分析而得到的一个大概的使用频度,共分为五级:1级的使用频率最高,2级次之,……5级最低。

 

kGB0GB 2312-80区位码)

 

属性

kGB0GB 2312-80区位码)

分类

与其他编码字符集的映射

分级

暂定

记录数

6763

数据值格式

分隔符

空格

语法

[0-9A-F]{4}

说明

某个汉字在GB 2312-80字符集中的区位码。

 

备注:

Unihan
kGB0kGB8(中间没有kGB2kGB4kGB66个属性是关于中华人民共和国在国际标准汉字集出现之前,以国家标准的形式制定的一系列汉字编码字符集的编码数据。具体涉及的GB标准号,请参考各个属性的说明信息。

GBK以前的GB汉字编码标准中,有一个很重要的概念,叫区位码--它实际上是GB编码的原始码,但实际应用中为了避免和ASCII码冲突,必须给区位码的高、低字节分别加上0xA0,得到我们通常所说的GB内码。有关区位码的含义及其和GB内码之间关系的更详细的解释,推荐参考伐木丁丁鸟鸣嘤嘤所写的《谈谈Unicode编码,简要解释UCSUTFBMPBOM等名词》一文。

大概是基于GB编码就是区位码的变形的原理吧,Unihan在其kGBn系列属性中提供了原始的区位码。区位码的原理本身并不复杂,但关于它的历史却可能鲜为人知,比如在UnihankGBn系列属性的说明中,作者一再使用了“mapping for this character in ku/ten form”的概念,如果直译的话就是某个汉字ku/ten格式的编码。当然现在我们知道所谓ku/ten就是编码平面中的日文发音,在GB编码字符集中与其对应的概念就是,因此用我们的话来说ku/ten格式编码就是区位码。因为世界上最早实现出来的双字节编码字符集是日文JIS X 0208编码,正是它首次使用了由94行(ku)和94列(ten)组成的94×94字符平面的概念,所以再对照GB编码中94区和94位的定义,我们就不难理解区位码和ku/ten格式编码的渊源了--以上理解来自于本人去年在论坛上的一个提问,相关的资料则请参考http://czyborra.com/charsets/cjk.html

kGBn
系列属性中给出的区位码数据是十进制的,共有四位,其中前两位代表区码,后两位代表位码。在把它们转换为实际的GB内码的时候,应该把区、位码分开来处理。比如汉字GB 2312-80区位码是5027,则它的GB 2312-80内码计算过程如下:
0x32
50的十六进制形式)+0xA0=0xD2,此即为内码高字节的值;
0x1B
27的十六进制形式)+0xA0=0xBB,此即为内码低字节的值;
内码值=内码高字节值+内码低字节值=0xD2BB

 

kGB1GB 12345-90区位码)

 

属性

kGB1GB 12345-90区位码)

分类

与其他编码字符集的映射

分级

暂定

记录数

6866

说明

分隔符

空格

语法

[0-9A-F]{4}

说明

某个汉字在GB 12345-90字符集中的区位码。

 

kGB3GB 7589-87区位码)

 

属性

kGB3GB 7589-87区位码)

分类

与其他编码字符集的映射

分级

暂定

记录数

4836

数据值格式

分隔符

空格

语法

[0-9A-F]{4}

说明

某个汉字在GB 7589-87字符集中的区位码。

 

kGB5GB 7590-87区位码)

 

属性

kGB5GB 7590-87区位码)

分类

与其他编码字符集的映射

分级

暂定

记录数

2842

数据值格式

分隔符

空格

语法

[0-9A-F]{4}

说明

某个汉字在GB 7590-87字符集中的区位码。

 

kGB7GB 8565-89区位码)

 

属性

kGB7GB 8565-89区位码)

分类

与其他编码字符集的映射

分级

暂定

记录数

42

数据值格式

分隔符

空格

语法

[0-9A-F]{4}

说明

某个汉字在GB 8565-89字符集中的区位码。

 

kGB8GB 8565-89区位码)

 

属性

kGB8GB 8565-89区位码)

分类

与其他编码字符集的映射

分级

暂定

记录数

785

说明

分隔符

空格

语法

[0-9]{4}

说明

某个汉字在GB 8565-89字符集中的区位码。

 

kGSR(《漢文典(修訂本)》索引)

 

属性

kGSR(《漢文典(修訂本)》索引)

分类

字典索引

分级

暂定

记录数

7403

数据值格式

分隔符

空格

语法

[0-9]{4}[a-vx-z]/'*

首发版本

4.0.1

说明

某个汉字在高本漢的《漢文典(修訂本)》(1957)中的位置。

这个属性包含了7403条记录的数据,格式为DDDa(),其中:DDDD是一个范围在00011260之间的四位数(不足四位在高位补0);a是一个在az之间(不包括w)的小写英文字母;最后的半角单引号“’”是可选的。数据来源自一个包含10,023条引用参考的对应表,引用记录的格式在这里被省略了。

发布记录

20031222:首次发布。下列32条引用数据的格式是未被编码过的:0059k 0069y 0079d 0275b 0286a 0289a 0289f 0293a 0325a 0389o 0391h 0392s 0468h 0480a 0516a 0526o 0566g' 0642y 0661a 0739i0775b 0837h 0893r 0969a 0969e 1019e 1062b 1112d 1124l 1129c' 1144a 1144b。在某些情况下会对应表中出现形式和含义特异的对应记录,这些引用特例在这里就不多加说明了。

著作简介

Grammata Serica Recensa(中文译名:《漢文典(修訂本)》)是瑞典著名汉学家高本漢(Karlgren, Klas Bernhard Johannes 18891978)所著的一部研究和整理汉语古文字字形及音韵的字典,本数据库参考了2000年发表的该字典的一个电子版本。电子版《漢文典(修訂本)》包括了索引、正音、图片和高本汉著作(1957)原文,资料来源自Richard Cook主持的STEDT项目,也部分参考了由Tor UlvingFerenc Tafferner完成的整理工作(参见下面的说明),获加利福尼亚大学伯克利分校授权使用。有关STEDT项目的详细情况,请参考其网站<http://stedt.berkeley.edu/>

高本汉1957年重新修订的《汉文典》第一版发表在瑞典斯德哥尔摩《远东文物博物馆公报》(BMFEA)第29卷上,由Elanders Boktrycker AktiebolagKungsbacka1972年再版。另外,位于中国台湾台北市的南天書局有限公司也曾于1996年再版此修订本,ISBN书号:957-638-269-6

高本汉1940年首次发表的Grammata Serica: Script and Phonetics in Chinese and Sino-Japanese(中文译名:《中日漢字形聲論》,亦即《漢文典》)原刊于BMFEA12卷,台北成文出版社有限公司于1966年再版了该著作。

Tor UlvingFerenc Tafferner根据高本汉的构拟重新编写了一本非常有用的书--Dictionary of Old and Middle Chinese: Bernhard Karlgren's Grammata Serica Recensa Alphabetically Arranged--中文译名为《上古和中古汉语字典:根据高本汉〈汉文典(修订本)〉音序排列》,由瑞典歌德堡大学学报于1997年出版,ISBN书号:91-7346-294-2

 

备注:
高本汉的Grammata Serica Recensa的中译名可以有很多种,这里我采用的是中文学界认同程度比较高的《汉文典》,虽然从著作者本人对该字典的说明其研究阐述的内容来说,个人认为应该译为《古汉语字典》更贴切一些。

另外Grammata SericaGrammata Serica Recensa的常用译名相差甚远在我这个外行人看来也是一件比较别扭的事情,其实后者就是前者的修订本。

Unihan
数据库整理的《汉文典》索引数据所引用的位置实际上并不是关于原著的,而是关于它的一个电子版的索引,该电子版主要基于加州大学伯克利分校的STEDT项目提供的资料而构成,上述说明中所说的被省略掉的引用参考对应表及其记录数据的格式和含义相信应该指的就是STEDT上的资料结构。

 

kGradeLevel(香港汉字教学水平等级)

 

属性

kGradeLevel(香港汉字教学水平等级)

分类

字典素材

分级

暂定

记录数

2632

数据值格式

分隔符

空格

语法

[1-6]

首发版本

3.2

说明

围绕香港教育系统中规定学生应该掌握的汉字而划分的一个基本水平等级,共有6级。数据来源自朗文香港2001年版《朗文初級中文詞典》。

 

kHDZRadBreak(《汉语大字典》部首字头索引)

 

属性

kHDZRadBreak(《汉语大字典》部首字头索引)

 

分类

字典素材

 

分级

暂定

 

记录数

200

 

数据值格式

分隔符

语法

[x{2F00}-x{2FD5}][U+2?[0-9A-F]{4}]:[1-8][0-9]{4}/.[0-9]{2}[012]

首发版本

4.1

 

说明

为《漢語大字典》中的部首字头建立的一个索引--即汉语大字典部首字头在字典正文中的位置。数据值包括对应的康熙部首(及其Unicode编码点)、冒号:kHanyu属性数据格式的位置信息。

 

    

 

kHKGlyph(香港《常用字字形表》索引)

 

属性

kHKGlyph(香港《常用字字形表》索引)

分类

字典素材

分级

暂定

记录数

4825

数据值格式

分隔符

空格

语法

[0-9]{4}

首发版本

3.1.1

说明

某个汉字在香港《常用字字形表(二零零零年修訂本)》中的位置,该表由香港教育學院于2000年出版,ISBN书号:962-949-040-4。《字形表》收录香港基础教育阶段的常用字4759个,制定了它们的标准字形。此位置信息由四位十进制数组成,不足四位的在高位补0

 

kHKSCS(香港增补字符集Big5编码)

 

属性

kHKSCS(香港增补字符集Big5编码)

分类

与其他编码字符集的映射

分级

暂定

记录数

4375

数据值格式

分隔符

空格

语法

[0-9A-F]{4}

首发版本

3.1.1

说明

某个汉字在Big5扩充-香港增补字符集中的十六进制编码。

 

kHanYu(《汉语大字典》索引)

 

属性

kHanYu(《汉语大字典》索引)

分类

字典索引

分级

暂定

记录数

55817

数据值格式

分隔符

空格

语法

[1-8][0-9]{4}/.[0-9]{2}[0-3]

说明

某个汉字在《汉语大字典》(HDZ)中的字头位置(有关该字典的介绍稍后给出)。

这个属性的数据值格式为ABCDE.XYZ,其中:A表示卷号(范围在18之间);BCDE是一个表示页码(范围在00014809之间)的四位数,不足四位的在高位补0XY是一个表示页内第几个字头(范围在0132之间)的两位数,不足两位的在高位补0Z代表字头的存在状态,为0时表示该字头存在于字典中,若大于0则表示该字头并不存在于字典中,但根据字典的编排规则可以虚设在第Z个字头的位置--也就是说如果字典要收录该字头的话,那它就应该被编排在这个位置。比如,索引值53024.060表示一个实际存在于汉语大字典中的字头,它位于第五卷3024页的第6字头(即籉)。另外要说明的是,卷8BCDE取值范围在00080044之间,它实际上是字典末尾的附录补遗部分(真实页码从字典第5746页之后开始)。

虚设字头位置在第一个的索引为1,第二个的索引为2……等等,依次类推。

版本信息

在这个属性的全部56097条记录中,有54728条表示实际的汉语大字典字头索引(注意:是在字典正文中的位置),另外1369条记录则表示虚设的字头位置(见下面的备注)。

在这其中,一共有55817条记录是唯一的。之所以会说有五万六千多条是因为需要考虑IRG字源认同因素,同一个编码点可能会出现不只一条汉语大字典索引(指向同一个字的相容变体)。字源认同的类型有两种:(1) 变体认同;(2) 检字结果相同认同。

为了验证所有索引数据的准确性,主要应该根据对三方面的资料进行相互校验来完成:(1) 字典原文;(2) Unihan.txt3.1.1d1版)中的kIRGHanyuDaZidian属性数据;(3) 由中国中文信息学会最初发布和校验的HDZ.TXT文件。另外,本属性的数据还被反过来用于校验Unihan.txt3.1.1d1版)中的kHanYukAlternateHanYu属性数据,虽然现在这两个属性已经被别的属性取代了。

通过上述方法对数据值、数据长度、组合关键字、属性总数和页面总数等指标进行的完整核查,总共统计出上面列出的资料(2)中的578处冗余/错误数据,现在已经全部确认或改好了。有些错误没有改是因为它们可能索引的是虚设位置,或者是用来对某页中的字头进行排序的,这跟那种涉及不同的两页的错误是不一样的。在将来,可能会分离字源认同的记录,这样就需要更新某些索引数据的编码点了。不然就应该在数据库中删掉字源认同(重复编码点)的记录。

在上面列出的资料(3)中只有真实的汉语大字典字头的数据才能用于进行校验,而资料(2)则可以拿来校验全部虚设位置。似乎编辑资料(2)的人通常都会根据笔画数规定虚设位置,即使有时虚设位置跟实际字头的位置一样的(即该字是一个变体),与实际的笔画数无关。

本属性数据所依据的字典原文,是由四川辞书出版社和湖北辞书出版社于19861990年间联合出版的《汉语大字典(八卷本)》, ISBN书号:7-5403-0030 2/H.16

 

kHangul(谚文注音)

 

属性

kHangul(谚文注音)

分类

字典素材

分级

暂定

记录数

7745

数据值格式

分隔符

空格

语法

谚文字符

首发版本

5.0

说明

用谚文标注的某个汉字在现代朝鲜语中的发音。

 

kHanyuPinlu(现代汉语读音频率)

 

属性

kHanyuPinlu(现代汉语读音频率)

分类

字典素材

分级

暂定

记录数

3799

数据值格式

分隔符

空格

语法

[a-zü]+[1-5]/([0-9]+/)

首发版本

4.0.1

说明

某个汉字在现代汉语中的读音及其使用频率资料,数据主要来源于《現代漢語頻率詞典》(稍后将给出该词典的介绍)。

数据格式

本属性总共有3800条记录,每条记录由两部分数据组成。

首先是汉字的汉语拼音,拼音字母的后面带有用数字表示的声调(15声,第5声表示轻声)。

跟在声调数字后面的是一个用圆括号括起来的数字串,比如a1(392),括号中的数字表示(由《现代汉语频率词典》统计的)该读音的使用频率。

多音字的各个读音按其使用频率排序(频率高的在前面),其间用逗号和空格分开。

版本信息

《现代汉语频率词典》所依据的是来源于现代规范汉语(普通话),分为四种类型(新闻出版物、科技文献、口语和文学作品),总共440799字的语料。有关这些语料的具体情况就不方便在这里详细介绍了。

《现代汉语频率词典》第491656页的8548个(有的版本是8586个)条目的资料是手工录入的,并由Richard Cook199484日至1995322日间校对过。

当前版本发布的数据最后一次校对的时间就是上述的校对时间。

这里发布的汉语拼音资料于1995年通过半自动和手工结合的方式校对过,主要来源于Ross PatersonDepartment of Computing, Imperial College, London)提供的数据。

另外还应当感谢文林研究所<http://www.wenlin.com>的负责人Tom在本属性早期的数据校对工作中所提供的帮助。

此《现代汉语频率词典》数字化资料所使用的汉字基本上为中国内地的简体中文GB 2312-80编码字符集(简体中文的Mac OS 79版即使用此编码标准)中的字,除了一个字之外。

本属性的数据汇集过程为:先把原始资料文本转换为Big5编码(缺一个),然后分别把GBBig5的资料文本转换为Unicode 4.0编码,最后合并两个Unicode文本得到当前版本的3800条记录。从现代汉语简体中文多音节词中统计出来的频率数据适用于简化字和繁体字使用频率的分析。

本属性资料的主要数据来源信息

《現代漢語頻率詞典》,北京語言學院語言教學研究所編著。

19866月第一次出版,19904月第二次印刷。ISBN书号:ISBN 7-5619-0094-5/H.67

 

kIBMJapanIBM日文编码)

 

属性

kIBMJapanIBM日文编码)

分类

与其他编码字符集的映射

分级

暂定

记录数

360

数据值格式

分隔符

空格

语法

F[ABC][0-9A-F]{2}

说明

某个汉字在IBM日文字符集中的十六进制编码。

 

kIICore(国际表意文字核心集资料)

 

属性

kIICore(国际表意文字核心集资料)

分类

字典素材

分级

常规

记录数

9810

数据值格式

分隔符

空格

语法

[1-9]/.[1-9]

首发版本

4.1

说明

表示某个汉字被收录在了国际表意文字核心集(即International Ideographs Core,简称IICore)里面,这是由IRG提出的,为表示东亚国家共通使用的汉字所必需的一个最小字集。

本属性的数据值表示某字已被IRG核准,但未经通过WG2认证,或者表示在ISO/IEC 10646中包含有该字的一个子集的子集标识符。

 

kIRGDaeJaweon(四字典定序用《大字源》索引)

 

属性

kIRGDaeJaweon(四字典定序用《大字源》索引)

 

分类

字典索引

 

分级

暂定

 

记录数

16024

 

数据值格式

分隔符

空格

语法

[0-9]{4}/.[0-9]{2}[01]|0000/.555

首发版本

3

 

说明

某个汉字在《大字源》(朝鲜)中的位置,这本字典是IRG用来确定汉字编码顺序的四本字典之一。此位置信息的格式为页码.页内第几字,其中如果代表页内第几字的数字的最后一位为0的话,就表示这个汉字实际存在于字典之中;如果为1的话就表示这个汉字没有实际存在于字典之中,这是一个虚设的汉字位置,意思是如果字典中有这个字的话,那它就应该出现在这里。

比如,位置信息1187.060表示1187页第6字(实字)。如果想要表示一个字典中没有的字,但根据排序规则可以在1187页的第6和第7字之间给它虚设一个位置的话,那么位置信息就应该写为1187.061

这个属性的数据值表示IRG在用四字典定序法编排汉字时,所正式参考的某个汉字在《大字源》中的位置。

这里使用的《大字源》版本为Samseong出版社1988年版第一版。

 

    

 

kIRGDaiKanwaZiten(四字典定序用《大汉和辞典》索引)

 

属性

kIRGDaiKanwaZiten(四字典定序用《大汉和辞典》索引)

分类

字典索引

分级

暂定

记录数

17864

数据值格式

分隔符

空格

语法

[0-9]{5}/'?

首发版本

3

空格

某个汉字在《大汉和辞典》(日本,诸桥辙次著)中的位置,这本辞典是IRG用来确定汉字编码顺序的四本字典之一。

这个属性的数据值表示IRG在用四字典定序法编排汉字时,所正式参考的某个汉字在《大汉和辞典》中的位置。

这里使用的《大汉和辞典》版本为东京Taishuukan Shoten 1986年版的修订本。

 

kIRGHanyuDaZidian(四字典定序用《汉语大字典》索引)

 

属性

kIRGHanyuDaZidian(四字典定序用《汉语大字典》索引)

 

分类

字典索引

 

分级

暂定

 

记录数

55812

 

数据值格式

分隔符

空格

语法

[1-8][0-9]{4}/.[0-3][0-9][01]

首发版本

3

 

说明

某个汉字在《汉语大字典》(中国)中的位置,这本字典是IRG用来确定汉字编码顺序的四本字典之一。位置数据的格式为卷号页码.页内第几个字头,其中页内第几个字头的最后一位数如果为0表示字典中有这个字头,如果为1则表示字典中没有这个字头(代表一个虚设位置)。

比如,数据值32264.080代表的是卷三2264页第8字头。如果一个汉字不是字典中的字头,但根据字典的编排规则应该把它安排在上述页次中的第89字头之间,则该汉字的虚设位置数据为32264.081

这个属性的数据值表示IRG在用四字典定序法编排汉字时,所正式参考的某个汉字在《汉语大字典》中的位置。

这里使用的《汉语大字典》版本为成都四川辞书出版社1986年版。

 

    

 

kIRGKangXi(四字典定序用《康熙字典》索引)

 

属性

kIRGKangXi(四字典定序用《康熙字典》索引)

分类

字典索引

分级

暂定

记录数

70205

数据值格式

分隔符

空格

语法

[01][0-9]{3}/.[0-7][0-9][01]

首发版本

3

说明

某个汉字在《康熙字典》中的位置,这本字典是IRG用来确定汉字编码顺序的四本字典之一。位置数据的格式为页码.页内第几字头,其中页内第几字头的最后一位数如果为0表示字典中有这个字头,如果为1则表示字典中没有这个字头(代表一个虚设位置)。

比如,数据值1187.060表示的是1187页第6字头。如果一个汉字不是字典中的字头,但根据字典的编排规则应该把它安排在上述页次中的第67字头之间,则该汉字的虚设位置数据为1187.061

这个属性的数据值表示IRG在用四字典定序法编排汉字时,所正式参考的某个汉字在《康熙字典》中的位置。

这里使用的《康熙字典》版本为北京中华书局1989年出的第七版。

备注:

有关IRG和四字典定序法的两篇简单介绍--
http://www.nits.org.cn/sc2/jieshao1.asp
http://glyph.iso10646hk.net/chinese/icharacters_3.htm

更详细的资料则请参考Unihan之道》

kMandarin(汉语拼音)

 

属性

kMandarin(汉语拼音)

分类

字典索引

分级

暂定

记录数

25477

说明

汉语拼音,使用频率排序,而不是字母顺序

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值