我的形码输入法[C语言] 之四:输入法的设计(2)

原创 2004年08月26日 16:39:00

输入法的转换需求:四位以下的数字-》字或词

词库的编码需要:字-》编码

 

从前篇的叙述以及上面的需求上可以看出,需要下列库:

字库:常用、罕用

词库:常用、罕用

考虑到字只有16位(不支持宽字),而且编码最多只有11110种(用排列组合算一下:)

我采用了数据文件以及索引文件的方法

其中:数据文件存放实际内容,索引文件把编码或这字作为索引指向数据文件中的内容(这个设计贯穿了整个输入法设计的始终)

 

字库索引:

首先,我做了一个 编码-》汉字 的索引,把编码转换位一个四位数,然后以这个四位数的值作为位置在索引文件中取索引,然后根据索引找到这个编码所对应的字起始位置。这么说可能不大好理解,举个例子:

编码:3584 ,索引文件中3584 * 2(乘以2是因为一个索引值占16个bit,即两个字节)位置上的一个WORD大小的内容就是编码3584 对应的字在数据文件中的起始位置,然后循着这个起始文件的位置,知道找到一个句子结束标志,其中所有的字就是3584 对应的所有的字,至于怎么显示只是个小问题了。

如数据文件那一行内容为:

3584 辞稡狡饺觪辤辭猝獐皎鮫鲛鱆

那么3584的编码对应字就都找出来了,这个会有几十个文件读取操作速度不算很快,但是对于输入法来说微乎其微。

 

词库编码生成:

前面说过词的编码是可以通过字的编码生成的,生成规则也在前面的文章中介绍过,要用到字的编码,即需要根据字来查编码

我分析了一下字,发现从0x0000  -》 0xFFFF只有0xFFFF种情况,而一个编码可以用一个WORD的内容来代替(两个BYTE),那么可以建立一个索引文件,以汉字的数值为索引,其对应的索引文件位置的内容为数值编码,然后转化一下就可以得到这个字的编码了,整个文件大小64 *  4=128K,即一个128K的索引文件,虽然大部分的地方浪费了,可以换个快速的查找也是值得的。

 

词的索引:

其实词的索引和字的索引类似,也从编码变到索引再从数据文件中取出一行词来,只不过词之间要用空格或者tab进行分隔,而字不需要罢了

 

坏了,出问题了:

仔细想一想上面的设计有什么问题?哦,有些字像“一”,只有一个编码,还有的字只有两个三个编码的,这时候编码“99“对应的数值是九十九,而编码“099”对应的也是九十九,怎么办?

呵呵,后来我给每一位都加上1,然后使用十六进制,即0013的数值是0x1124,0099对应的是0x11AA,这样就没有问题了,但是为了保险(后面就遇到了问题)起见,把空编码计为0xF,即编码042对应于0xF153,这样就没事了。

好了,今天就写到这里了,有些乱了,整理整理再写

我的形码输入法[C语言] 之三:输入法的设计(1)

本篇只叙述我的形码输入法内部从输入到输出转换的原理,如果想要了解输入法程序的框架是怎么样的、到底是怎么被调用出来的,请参见自由拼音输入法源码3.1版,我最初的程序就是用这个改的如果想要了解window...
  • realfun
  • realfun
  • 2004-08-26 16:10:00
  • 4475

目前最易学最快最好的繁体形码顺手输入法 免费下载

 庆祝十一国庆节!现发布BIG5繁体顺手输入法供大家使用。下载地址:进入顺手输入法网站http://shunshou.xinwen666.com/ 点击"下载",进入下载页下载,安装后进入"学习园地"...
  • shunshou
  • shunshou
  • 2007-10-03 16:05:00
  • 700

C语言版拼音输入法源代码

  • 2008年06月25日 10:32
  • 198KB
  • 下载

极点郑码十周年纪念版

  • 2013年03月25日 22:40
  • 9.39MB
  • 下载

用C语言写的自由拼音输入法(源程序)

  • 2009年02月23日 21:14
  • 566KB
  • 下载

加加输入法小鹤双拼形码挂接,内附教程

  • 2017年04月07日 11:11
  • 622KB
  • 下载

声形码(钱码)输入法

  • 2013年04月26日 17:34
  • 643KB
  • 下载

C语言也能干大事-----第2讲笔记

开发windows程序 1.开发一个对话框程序,用Win32DlgBasedAppWizard 下载Win32DlgBasedAppWizard,本插件是一个VC开发Win32SDK对话框程序用的...
  • phoebe_zhou
  • phoebe_zhou
  • 2012-04-11 15:06:28
  • 455

一个简单的拼音输入法,实现常用汉字的输入

/* 这是一个简单的拼音输入法,只有常用的汉字,输入拼音后, 再输入数字,选择所需要的拼音 */ #include #include #include #define OUT...
  • YANGSENG1987
  • YANGSENG1987
  • 2013-08-28 10:34:56
  • 4988

我的形码输入法[C语言] 之一:输入法的字词编码

以下的介绍内容涉及到专利权的,不过不是偶的,是客户的:) 用在windows平台上,是形码输入法,使用四位十进制数字代替形码: 0 口囗日目曰罒 1 丨丶ㄟ宀 2 一 3 丿 4 十乂艹丰井卅 5 ...
  • realfun
  • realfun
  • 2004-08-23 08:52:00
  • 2755
收藏助手
不良信息举报
您举报文章:我的形码输入法[C语言] 之四:输入法的设计(2)
举报原因:
原因补充:

(最多只允许输入30个字)