近日在学习ICTCLAS中文分词系统,看到关于词典组织部分:将词典
分成6768个大数据快,不是很明白所以查找了《
信息交换用汉字编码字符集
》,现将自己看到的结果整理如 下:
(1)GB2312 共收录6763个汉字和非汉字图形字符682个.
(2)采用区位码进行汉字分类(94区×94位)
(3)如何分区:
01-09区为特殊符号。
10-15区及88-94区则未有编码。
(4)字节结构
大家都知道一个汉字有由个字节组成
第一个字节(高位节)是:
0xA1-0xF7(把01-87区的区号加上0xA0)第二个字节(低位节):0xA1-0xFE(把01-94加 上 0xA0)
如:啊=
0xB0(第一个字节(16+0XA0))0xA1(第二个字节0xA0+1)