GB2312汉字编码

    近日在学习ICTCLAS中文分词系统,看到关于词典组织部分:将词典
   分成6768个大数据快,不是很明白所以查找了《 信息交换用汉字编码字符集 》,现将自己看到的结果整理如  下:
 (1)GB2312 共收录6763个汉字和非汉字图形字符682个.
 (2)采用区位码进行汉字分类(94区×94位)
 (3)如何分区:
  01-09区为特殊符号。
 16-55区为一级汉字,按 拼音 排序。
 56-87区为二级汉字,按 部首 笔画 排序。
 10-15区及88-94区则未有编码。
  (4)字节结构
 大家都知道一个汉字有由个字节组成
 第一个字节(高位节)是: 0xA1-0xF7(把01-87区的区号加上0xA0)第二个字节(低位节):0xA1-0xFE(把01-94加  上 0xA0)
 如:啊= 0xB0(第一个字节(16+0XA0))0xA1(第二个字节0xA0+1)

 


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值