汉字的存储问题

今天在写分词程序中碰到了汉字的存储问题,特作标记如下:

汉字机内码在计算机的表达方式的描述是,使用二个字节,每个字节最高位一位为1。计算机中,补码第一位是符号位 1表示为负数。所以汉字机内码的每个字节表示的十进制数都是负数,统计输入字符串含有几个汉字,只需要求出字符串 中小于0的字符有几个,将它除以2就得到答案

汉字在计算机里是用机内码表示,国家标准的汉字字符集在汉字操作系统中是以汉字库的形式提供的。汉字库规定, 把字库分为94个区(区号),每个区有94个汉字(位号),这就是所谓的区位码(区位码第一字节是区号,第二字节 是位号,因为知道了区位码就等于知道了该汉字在字库中的位置)。每个汉字在字库中是以点阵字模形式存储的,如 一般采用1616点阵形式,这样就需要32个字节。在1616点阵里,存1的点在显示时为一个亮点,存0的点不显示, 这样汉字就显示出来了。 0000001100000000 0000001100000000 0000001100000000 0000001100000010 1111111111111110 0000001100000000 0000001100000000 0000001100000000 0000001100000000 0000001110000000 0000011001000000 0000110000100000 0001100000010000 0001000000011000 0010000000001110 1100000000000100 这样当需要显示“大”这个汉字时,首先要把这个字模取出,然后逐位显示,1显示0不显示,屏幕上就会出现“大”这个汉字 那么我们怎么知道汉字的区位码呢?汉字的机内码和区位码的转换关系是(以"大"为例) 区号B4-A0 位号F3-A0 也就是说,把内码减去A0就是区位码,那么“大”这个汉字的区位码就出来了,是在14H区53H好,也就是第20区第83号。 那么由于每个区有94个汉字,“大”这个字应该就是在汉字库的第(20-1)*94+(83-1)个汉字位置(每个汉字字模占32字节)

例子测试如下:

<!-- lang: cpp -->
int x = -96;
string m = "大";
int quma = int(m[0]) - x;
int weima = int(m[1]) - x;

由于十六进制0xa0不能表示负数,故直接用-96表示,程序输出结果是quma=20,weima=83

转载于:https://my.oschina.net/u/866703/blog/147200

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值