计算机五笔字型编码方法,计算机汉字输入坐标码编码方法

专利名称::计算机汉字输入坐标码编码方法

技术领域:

:本发明涉及一种计算机汉字输入编码方法。形码,是目前广泛应用的一类计算机汉字输入方法,它的典型代表是″五笔字型″,″五笔字型″以汉字的″拼形″特性做为它的理论根据,从字形入手,见形识码,完全避开汉字的读音。它克服了″音码″不知道读音或读音不准便无法正确输入的缺点,具有重码率低,输入快的优点。形码,靠提取汉字的形特征信息进行编码,一般都拆分汉字,形码的设计思想可概括为首先,基于″某种认识″确定汉字的拆分结果---即″字根集″;然后,根据字根集反过来解决″汉字的拆分″问题,以及编码和输入等问题,″字根集″是形码的核心,不同的形码本质上是″字根集″的不同,汉字的拆分方法也因之不同。不足之处是记忆难,它的一百多个字根含有很多非字部件,而且没有规律性,记忆负担重;学习难,汉字的结构规律是客观存在的,五笔字型的字根集无疑也是汉字构成的主要部分,但是,将字根集定义成唯一的汉字结构单元,用它去机械地硬性拆分汉字,便偏离了汉字的结构规律,也远离了人们的文字习惯,典型的例子就是″相交笔画被拆分,基本汉字被拆开″,如此,人们深厚的母语文字知识用不上,长年的文字习惯不被认同,不仅造成了学习上的困难,也造成了心理上的隔膜。为解决以上编码方法之不足,本发明的目的提供一种计算机汉字输入坐标码编码方法,利用汉字的结构特点,建立拆分原则,不使用″字根集″,可以实现计算机快速编码输入,重码率低,便于记忆,便于学习的目的。本发明计算机汉字输入坐标码编码方法,其内容包括1.坐标码无″字根集″的拆字方法五个不拆分原则;汉字拆分的依据--型元集;汉字拆分的相关因素;汉字的拆分规则。2.坐标码的编码方法用于编码和输入的信息;坐标码与键盘的对应关系;编码规则。其中坐标码无″字根集″的拆字方法和坐标码的编码方法分别说明如下为什么叫坐标码汉字可以看成是分布于某一空间的点阵,为汉字编码其实质就是寻找一个坐标,该坐标应可以很好地离散汉字(重码率低),并使之具有唯一性(一字一码),只要能建立这样一个坐标,设甘思想是不受约束的。鉴于这一认识,本码取名为″坐标码″。一.汉字的基本笔画有五种横,竖,撇,捺,折.其中横包括″提″;竖包括″左竖钩″亅;捺包括″点″、。笔画之间的组合方式有三种(1)相交笔画之间彼此交越的组合方式称相交,如十,九,丰;(2)离散笔画之间彼此分离的组合方式称离散,如氵,彡,儿,川,灬;(3)粘连笔画之间彼此相连但不交越的组合方式称粘连。粘连又分三种A.直连笔画横、竖以及折的横、竖段之间的粘连方式称直连。如丁,卫,山,支;B.斜连相粘连的一方是撇、捺或是折的撇捺断的粘连方式称斜连。如人,不,,亻;C.端连笔画连于彼此端点的粘连方式称端连;如凸,冂,厂,几,凹,口。二.五个不拆分原则型坐标码将笔画的组合体称为″型″。基本型坐标码中,汉字的基本结构单位称为″基本型″。坐标码认为将汉字还原成笔画而取码的方法是最不可取的,它最大限度地丢失了汉字的结构信息。坐标码总结出五个不拆分原则。1.一个笔画不允许拆成两截,断在两个型中。原因单一笔画理应完整。2.相交叉的笔画不允许拆分,如丰,十,又,原因″交叉″是一种紧密的组合方式。3.相端连的笔画不允许拆分,如弓,厂,口,凸。原因″端连″也是一种紧密型组合方式。4.由两笔构成的汉字和常用非字偏旁不允许拆成笔画,如人,儿,丁,亻,冖,阝,讠,刂,冫,等。原因由笔画的原始功能推理而得。5.至少被某一笔画完全隔离的,结构上对称分布并被包容的,两个单笔画不允许拆出组成一个型。如平,不可以拆成″干与丷″;木,不可以拆成″十与八″,原因文字学指出″汉字的结构是一种积木式结构″这五个不拆分原则在一定程度上保护了汉字的结构,但这还不足以成为一种方法。三.型元集1.型元集的产生文字学指出″汉字由合体字与独体字组成,而且在早期的汉字中,合体字完全由独体字构成″。可见早期汉字的基本结构单元就是汉字,即不可拆分的独体字,汉字的结构规律呈现出完全的″文字性″。汉字发展到今天,它的结构规律也再变化,但是″文字性″仍然是它最重要的内容,此内容可表述如下″汉字结构是以基本汉字和常用非字偏旁为主,辅之以众多的使用频率很低的部件所构成″。根据汉字结构规律的″文字性″,结合″易于记忆″的设计原则和″限制拆分″的设计思想,坐标码将″结构不可再拆分的汉字和常用非字偏旁″做为汉字拆分的依据。型元坐标码将结构不可再拆分的汉字和常用非字偏旁称″型元″,型元的总和称型元集。型元集由三部分组成(1)符合五个不拆分原则的汉字和常用非字偏旁如十,九,口,厂,乙,木,等。(2)拆不出(1)中型元的汉字和常用非字偏旁,也是型元,如非,年,永,承等。(3)含有型元,但在坐标码的拆分规则中不允许拆分的汉字和常用非字偏旁,也是型元。如函,成,飞,王,失等。对于国标GB2312(80)字符集,共有型元334个,其中汉字279个,常用偏旁55个,详见附表。2.型元集的易记性型元集所含型元的数量并不少,但记忆起来十分容易,原因有两条第一,它具有文字性,279个字型元是结构最简单的汉字,而且绝大多数是常用汉字;55个常用非字偏旁虽不是汉字,但由于它的常用性,它们实际上是一种″准文字″,人们对它们的熟悉程序不低于常用汉字,所以型元集易于掌握。第二,它具有规律性,型元具有结构不可再拆分的特点,而且型元集是此类汉字,及常用非字偏旁的集合,所以型元的鉴别十分容易,″文字性″使型元集易于掌握,″规律性″使型元集易于区别,二者使型元集具有″易记性″。四.汉字拆分的关联因素1.型的分类与性质坐标码研究发现,一个型在汉字中的″稳定性″---既做″基本型″能力的大小,与构成它的笔画数有关,也与笔画间的组合方式有关,坐标码根据笔画数和组合方式将汉字中的型分类如下(1)单型仅有一个笔画的型称″单型″,型元集有两个单型型元,一和乙。性质单型的稳定性最弱,只有特殊情况下才可以做基本型。(2)偶型由两笔构成的型称″偶型″。如偶型元,人,儿,八,七,亠,等。性质偶型的性质很特殊,汉字结构不确定因素集中地反映在偶型的身上。偶型的″稳定性″居于单型和成型之间,偶型可否作基本型受诸多因素的影响。(3)成型由三笔及三笔以上笔画构成的型称″成型″,成型根据笔画之间的组合方式又分为三种1)正闭合型至少三面是由横,竖线段构成的闭合型及与之相交叉的笔画称″正闭合型″。如口,开,用,中,田等,2)相交型笔画间含有相交关系的成型称″相交型″。如木,寸,丰,才,等。3)堆积型笔画间仅含粘连,离散关系的成型称″堆积型″。如彡,巛,灬,立,火等。性质成型的″稳定性″比较强,以成型元而言,一般情况下它们都是基本型,只有特殊情况下,成型元也可以不是基本型。2.型的部位关系部位关系是指汉字中型之间彼此的位置关系,汉字结构的部位关系共有四种单一关系,上下关系,左右关系,内外关系,(1)单一关系即孤立的关系如人,七,十,大。(2)上下关系型之间是上下排列的位置关系,如吕,古,竿,急,等。(3)左右关系型之同是左右排列的位置关系,如双,林,叶,彻,等。(4)内外关系型之间呈内外分布的位置关系,如国,同,右,凶等。坐标码认为上下,左右部位关系中的型,彼此之间相对独立,是一种并列关系,适宜拆分;而内外关系中的型,彼此之间存在一种联系,相对而言独立性较差,对拆分有一定的约束。3.型之同的″连接关系″″连接关系″是指两型之间的接触方式,即笔画之间的连接方式。型之间的连接关系分为两类″离散″与″粘连″。离散,显然是有利于拆分的条件。粘连,根据情况又可分为三种具体情况(1)正闭合,两个型若组成正闭合型,则两个型之间的粘连方式称″正闭

表1注CELMET是三维网状多孔件,由SumitomoElectricIndustriesLtd.制造;#7是型号,表示每单位长度(1英寸)微孔数为50-70。B.存在粘连情况(直连或是斜连)或内外关系时,偶型元是基本型的一部分,不可拆。如函(),辰(厂),亥(亠),午(十),贝(人),今(人),严(厂)等,简而言之,此种情况下有一种外在约束(或是内外关系,或是粘连关系),偶型元便不能自保,成为基本型的一部分,(2)当对方为相交型时(正闭合型,见后述的准型元)A.在斜连或离散情况下,不论部位关系如何,双方均是基本型,可拆。如发,,又;匆勹,B.在直连情况下,上下,左右部位关系可拆,双方均为基本型;内外部位关系不可拆,型元是基本型的一部分。如击,,;叟,又;皮不可拆,″又″是字型元的一部分。简而言之,对方为相交型时,一种外界的约束束缚不了偶型元,两种外界的约束才能使双方成为一个基本型。规则3-4″当型元是单笔型元′一′和′乙′时,仅当(1)对方是成型;(2)彼此离散;(3)不为内外关系。三个条件均满足时,可拆,双方均为基本型。否则不可拆。″如丽一,;丝,一;乞,不可拆,是偶型;丞,不可拆,双方粘连。六.拆字规则的扩展规则1~3是坐标码的基本拆字规则,以此为基础还可以得到一些其它的结论。1.单笔画做基本型的条件坐标码中,单笔画是可以做基本型的,但条件很严格。规则4单笔画撇、捺不允许单独做基本型;单笔画横、竖、折可以单独做基本型,但要同时满足下面三个条件第一.与相邻型不为内外关系;第二.与相邻型不粘连;第三.相邻型是型元。如私,禾,;孔子,乚;日,丨,日言,亠,一,一口;旦日,一。2.关于″一″的规则″一″很特殊,即是笔画横,又是型元壹″。汉字中有许多字是由某字与″一″组成的,如王一,土;天一,大;千,一;再一,冉;生牛,一;正一,止;丙一,内;亚一,业;灭一,火;土十,一;闩门,一,酉西,一等等。为保护汉字结构的完整性,规则5当″一″与其它型元相组合时,″一″在拆分过程中以笔画横对待,拆分结果不受它的型元身份的影响,拆分结果是基本型,″一″是型元;否则,就是笔画横。如亘,一,日,一;″一″是型元。生,不可拆,″一″是笔画。3.准型元坐标码将汉字的型分为型元和非型元,基本型也分为型元基本型和非型元基本型,坐标码以型元集为核心,判定非型元型是否是基本型的拆字方法,是一种智能化的方法,也是独一无二的。以往的码,汉字的拆分结果必须是字根,字根是必须死记硬背的,而坐标码是不要求记忆非型元的,坐标码的这种拆分方法,其优点是明显的,第一,它只须记忆″文字性″的东西,这就拥有了易记忆的基础。(型元集还具有″规律性″)第二,它承认的汉字基本结构单元是开放的(型元也可,非型元也可)所以,它的拆分结果容易符合汉字的结构特点。事实上,目前得到公认的,文字学界统计出来的六百余个构字部件,反映在坐标码中,除少部分可以继续拆分外,其中最常用,最主要的部分便反映在型元集中;另一部分约二百个使用频率低,文字性差的构字部件便以非型元基本型的形式出现,而这一部分在坐标码中恰恰是不需要记忆的。这也就是坐标码既符合汉字的结构规律,又易学易记的原因之一。成型元是型元集的主体,它具有两个特征(1)文字性,(2)结构的稳定性。汉字的结构中有一种型,它不具文字性(不是汉字,也不常用),却具有成型元的稳定性,对拆分一些汉字很有帮助,坐标码称之为″准型元″,准型元有两种。(1)正闭合型正闭合型,笔画之间结合紧密,边界清晰易于判别,所以坐标码将之做为准型元。如鹿中″″,革中″″,面中″″。(2)成型元与某一笔画交,连而成,由拆分规则,此单笔画是不可拆分的,同时坐标码认为此型的独立性不应低于型中的成型元,所以将之列入准型元。如囱中,老中,系中。规则6″准型元在汉字拆分上,其功能等同于成型元″。准型元与型元的区别有两点第一、准型元不具备文字性;第二、键盘输入方式不同,见后。引入准型元后,坐标码的拆字手段更加完善。如“考、面”均无型元,引入准型元后,拆分简单而合理。考,面,4.型层型层是基本型的组合体,是可拆的;同时型层的结构完整性也更强,判定非型元型是否是基本型的能力也更强,规则7型层与单笔画″横,竖,折″相组合时,单笔画是基本型。如买,乛,大(头是型层)。司,一,口,(是型层)。5特例规则8(1)″一″与″相交型型元″粘连的情况当″一″与型元相粘连时,根据规则4,5,″一″是不可拆的。但是,当″一″相交型型元″粘连成非字型时,由于整体非字,如得中于,徐中禾,所以人们很容易识别出整体中的相交型型元,而且这样做也便于取码。为兼顾理论的严谨和实际的需求,坐标码将此种情况做为特例,并规定如下当条件1)″一″与″相交型型元″粘连,但不是内外关系;2)两者之和是非字型,且不与第三者上下粘连,均被满足时,′一′可拆,双方均是基本型。如徐彳,,一,木;得彳,日,一,寸,余,一,木。(2)关于″一″的优选方案″一″毕竟是型元,所以在一些场合,在不违反理论的前提下,″一″的拆分是一种优选方案。如咸拆成″戊,一,口″正确;拆成″戌,口″错误。司,拆成″,一,口″正确,拆成″,口″错误。合,拆成″,一,口″正确,拆成″口″错误。规则9拆分汉字出现两种情况时,根据下述顺序拆分(1)对于型元″型元优于非型元;成型元优于偶型元;正选型元优于归并型元″。如″卡″,有二种情况″上与卜″和″与下″;是卜的归并型元,所以第一种正确。又如″圭″,有″土与土″和″十与王″;根据″成型元优于偶型元″,所以第一种正确。(2)对于连接关系″离散优于粘连;斜连优于直连″。如敖中″″,有两种情况″与″和″与万″;根据″斜连优于直连″,所以第一种正确。解决了汉字拆分这一问题之后,便可以进行汉字的编码与输入了,在编码与输入环节上,坐标码具有音码的优点;简单,直观。在坐标码中,汉字的特征信息元就是基本型,型元集有334个型元,加上非型元基本型的存在,基本型的形式很多,如果和以往的码一样,将基本型的形式归并在键位上进行输入,将会带来很重的记忆负担,坐标码将不是一个好的汉字输入法。坐标码在其汉字拆分方法的基础上,形成了自己的独特的编码理论和方法,它不是输入″基本型″这一特征信息元,而是输入特征信息元″基本型″的特征信息,形象地说,它是汉字拆分后的″音形码″。七.用于编码和输入的信息坐标码采用两种信息进行编码与输入,(1)音信息;(2)序码1.音信息音信息,型元基本型码名的第一个拼音字母,称音信息,什么是″码名″呢?型元分两种,一种是字型元,一种是偏旁型元,对字型元而言,码名就是该字本身,对于偏旁型元而言,坐标码根据它们俗名的特点,用一个字做它们的码名,音信息实际上就是码名的声母或是韵母的第一个字母,它不涉及汉语拼音的″平,卷舌音″,也不涉及″四声″,所以它不受发音是否准确的干扰。关于偏旁型元的码名常用非字偏旁一般都有一个约定俗成的俗名,其取名的方法可归纳为三种(1)偏旁是某一合体字的一部分,用该合体字为偏旁取名,这叫″合体字名称″。如赵中″″,称赵字旁;虎中″″,称虎字头;(2)根据偏旁的特征取名,这叫″形特征名称″,如巛,称三拐,彡,称三撇;口,称方框。(3)根据偏旁与某字的联系取名(是某字的古形或变形),这叫″同源名称″。如忄与,称竖心旁,(是心的古形),氵,称三点水,(是水的古形);牛与称牛字旁,(牛的变形)。在坐标标码中,一般地具有″合体字名称″的偏旁型元,它的″码名″就是该合体字;具有″形特征名称″的偏旁型元,它的″码名″就取俗名的中心字;具有″同源名称″的偏旁型元,它的″码名″就是它的同源字。具体见下表。偏旁型元的码名序号偏旁型元俗名类型码名字母01亠文字头合体字文W02廴建之儿合体字建J03丬将字旁合体字将J04廾弄字底合体字弄N05宀宝字盖合体字宝B06彐寻字头合体字寻X07疒病字头合体字病B08虎字头合体字虎H09春字头合体字春C10卷字头合体字卷J11祭字头合体字祭J12癶登字头合体字登D13赵字旁合体字赵Z14青字头合体字青Q15共字头合体字共G16冂同字匡合体字同T17灰字头合体字灰H18勹包字头合体字包B19衣字底合体字衣Y20出字头合体字出C21冫两点水形特征点D22冖秃宝盖形特征秃T23三框栏形特征框K24口方框形特征方F25彡三撇形特征撇P26巛三拐形特征拐G27纟乱绞丝形特征乱L28采形特征采C29形特征刀D30讠言字旁同源言Y31刂立刀同源刀D32丷倒八字同源八B33私字同源私S34卩单耳刀形特征耳E35阝双耳刀形特征耳E36忄竖心同源心X37辶走之儿同源走Z38小反小同源小X39攵反文同源文W40夂折文同源文W41犭反犬同源犬Q42饣食字旁同源食S43礻示补儿同源示S44牛牛字旁同源牛N45爫爪字头同源爪Z46衤衣补儿同源衣Y47竹字头同源竹Z48足足定旁同源足Z49钅金字旁同源金J50四四字头同源四S51灬同源火H氵,扌,艹,亻4个偏旁型元的音信息是定义的。见后2.序码坐标码通过″序码″来提取汉字结构的″形信息″。序码″有规律的两笔笔画的组合称序码″。坐标码采用下述三种序码(1)音序码基本型的第一,二两笔组合称″音序码″。(2)端序码基本型或是型层,合体字的首末笔画的组合称″端序码″。(3)全序码全序码由两码构成,首码即基本型的″音序码″,次码即基本型余部的″端序码″。即提取基本型的第1,2,3末,笔画编码。它们的使用方法将在编码规则中述及。序码的可行性我们知道每一个人均可以正确书出自己并不认识的汉字,因为″笔顺″是汉字中最基本的常识,而且序码所涉及的笔画仅为两个位置特殊的笔画,所以说序码具有简单易行性。序码的意义序码的形式很简单,却是坐标码不可缺少的理论支柱之一。第一,它解决了非型元基本型的输入问题。第二,它可以进入汉字结构的内部,准确地提取形信息,保证了编码信息的多样性与完备性。第三,它的引入,使得坐标码可以不用以往码所使用的″特征信息元归并后输入″的形信息输入方法,使坐标码的输入环节异常简单,方便,坐标码的键盘内容比音码中的双拼双音方法的键盘内容还要简单。序码的基础---笔顺笔顺写正楷字时,下笔的先后顺序叫″笔顺″。笔顺,是人们长期书写经验的总结,是实践中形成的,有如下主要规则从上到下三言豆分早吕;从左到右以叶川块形朋;先横后竖十寸井正丰木;先撇后捺人入八尺火爪;先中间后两边小承办水永亦;从外到内飞月风向内间;从里到外凶函这远建;先主体后串心韦册丰串书;先主体后点点我发犬威龙;先点点后主体义主为;八.型元的变形与归并在坐标码中,型元存在归并现象,归并有两种情况。1.归并的双方形状差异较大如忄与,尤与尢,聿与肀,这种归并常见于汉字字典之中,有其归并的道理。在坐标码中,只承认型元归并表中列出的情况。2.归并的双方结构相似汉字是一种方块文字,不论汉字结构的繁简,也不论汉字笔画的多少,汉字的外形都是一个方块,为保持方块内部的平衡,构字的″基本型″就只能做一些改变---变得或大或小,或长或扁,以适应方块的要求;一些笔画也因此做一定的改动,以避免笔画间的覆压。如材中的″木-″;撬中的″-毛″;鸠中的″-九″。(1)对于含″折″笔的″非交叉″偶型元,由于″折″笔的形态很多,而且非交叉的两笔型其结构特征点又少,所以坐标码规定″含折笔的非交叉偶型元,只要折笔发生形变,型元归并表又未承认,两个型就不能归并,变化后的型是一个非型元型。″如见中″″,就不是偶型元″冂″。(2)对余下的型元坐标码规定下述两种情况下可以自然归并,而且不列入型元并表。A.全等型归并若型元的某一笔画发生形变,但整体的结构关系不变,笔画的种类也未变,则称这两个型是″全等型″可以归并如又--;八-;毛-;王-;木-。B.复纵笔型归并按运笔方向将竖,竖撇及折的竖段,称为″纵向笔画或线段″,一个型元如果含有两个及两个以上的″长的″″纵向笔画或线段″,当″纵向笔画或线段″形变,但仍为″纵向笔画或线段″时,允许两个型归并。如甩--;用--;开-;井--亦;月-;。注″月″与″″在坐标码中,是有规律可循的,在上下关系中,认为是″″,而在左右关系时,认为是″月″,如明,朋,胃,娟,复纵笔型允许归并,是因为此类型的结构特征点多,变化一点之后,仍然易于识别,仍然相近,所以坐标码认为它们可以自然归并。其它情况其它的变形,仅当型元归并表承认的情况可以归并,否则不可以归并。相归并的型元有何不同输入时,它们的″音″信息相同,但它们的″序码″将有所不同(全等形不变)。九.坐标码的键盘键盘用来输入汉字的编码信息,坐标码的键盘非常简单,它的内容少于音码的″双拼双音″,详见附录中的坐标码键盘示意图。坐标码键盘由四部分组成1英文字母用以输入型元的″音″信息″-第一个拼音字母。英文字母位置不变。2序码用以输入″形″信息-序码。将键盘上的25个个英文字母(N不用)分成五个区,对应序码的首笔″横,竖,撇,捺,折″,每个区按″横,竖,撇,捺,折″顺序从中间向两侧排列对应序码的次笔,这样25个序码元对应了25个英文字母,构成了″序码键盘″。由于″序码键盘″极简单又极富规律,所以无须记忆,容易掌握,3.一级简码坐标码的26个一级简码,被组成5句话定义在26个字母键上,输入时一字一键,用以提高单字输入的速度。4.6个特殊型元型元艹,木,氵,扌,月,亻的音信息是定义的,借以离散汉字,减少重码,定义关系如下氵-U;扌-l;艹-A;木-V;亻-O;月-P序码和键盘的对应关系如下序码(首笔/次笔)一/一一/丨一/丿一/丶一/字母GFDSA序码(首笔/次笔)丨/一丨/丨丨/丿丨/丶丨/字母HJKLM

表7注CELMET是三维网状多孔件,由SumitomoElectricIndustriesLtd.制造;#7是型号,表示每单位长度(1英寸)微孔数为50-70。爽大,DZZZ座广,人,人,土;GRRT2.特殊情况(1)特殊的型元汉字在键位上的分布(即第1码的分布情况)是不均匀的。V,U,I,不是汉语拼音,只是序码键位,所以键位上的汉字极少;O.P.A键位上的汉宇也很少,如A键,不算序码的话只有一个″凹″字,为了充分地利用键位,更好地离散汉字减少重码,坐标码将汉字中最大的6个型元部首氵,木,扌,艹,月,亻,采用定义的方式放在上述6个键位上,如此,它们的输入也就与本身无关。对应关系如下氵-U;扌-I;艹-A;木-V;亻-O;月-P。(2)特殊情况的编码规则上述6个键位和K键上的汉字,第1个基本型绝大部分是一样的,即氵,扌,艹,木,亻,月,口。若按一般情况取码,双型字的第3码,三型字的第4码(端序码)首笔将失去离散汉字的功能,为此,坐标码将首基本型为上述6个型元(不包括″月″)的汉字,做为特殊情况,单立编码规则。1)单型字(包括偏旁)多型字编码规则同一般情况。2)双型字码长为4,第1,2码,同一般情况;第3,4码,取″次基本型″的全序码″。实际上,后三码就是″次基本型″的″全码″。3)三型字码长为4,第1,2,3码,同一般情况;第4码,取后两个基本型的″端序码″。词组编码规则单字取码,取的是基本型的特征信息,词组取码则以单字的拼音首字母为主。由于词组输入方式更多地引入整字的拼音首字母,彻底地消除了单字的端序码,所以词组方式下的坐标码文字性更显著,取码更直观,快速,这是坐标码可以快速输入汉字的另一个理论根据。双字词每个字取其全码的前两个码如坐标,RRVY人民,RW*MB三字词第1,2,3码分别是三个字的拼音首字母。第4码取末字全码的首码。如自行车ZXCC中草药ZCYA多字词顺序提取第1,2,3,末字的拼音首字母。如经济特区JJTQ艰苦奋斗JKFD本发明之优点编码方法简单,易于实现计算机汉字快速输入,重码率低,便于记忆,便于学习。具体实施例方式例1″月″,″禾″字月,是满是五个不拆分原则的字型元,码长为3,月YQ*G*禾,含有型元″木″,但根据规则″单笔画撇不可以单独做基本型″,所以,″禾″也是字型元码长为3,禾HT*L*月,禾两字第1个码是它们的″音信息″,第2,3码是它们的″全序码″。例2″所″字″所″含有两个基本型,一个是型元基本型″斤″,一个是非型元基本型″″。编码为所E*JT*R*例3″科″字″科″含有三个型元基本型,禾,,十编码为HDSR*,第四码补的是整字的端序码R*。例4″攀″字攀,有6个型元基本型,为″木,,,木,大,手″。编码顺序提取第1,2,3末,基本型编码;攀MZZS。例5″考″字考,根据″准型元″予以拆分,含有两个非型元基本型″″,编码完全由序码构成考F*A*D*A*权利要求1.一种计算机汉字输入坐标码编码方法,其特征是该编码方法由坐标码无″字根集″的拆字方法及坐标码的编码方法两部分组成,坐标码无″字根集″的拆字方法由五个不拆分原则;汉字拆分的依据--型元集;汉字拆分的相关因素;汉字的拆分规则组成,坐标码的编码方法由用于编码和输入的信息;坐标码与键盘的对应关系编码规则组成;其中型元集由三部分组成(1)符合五个不拆分原则的汉字和常用非字偏旁;(2)拆不出(1)中型元的汉字和常用非字偏旁,也是型元;(3)含有型元,但在坐标码的拆分规则中不允许拆分的汉字和常用非字偏旁,也是型元对于国标GB2312(80)字符集,共有型元334个,其中汉字279个,常用偏旁55个;汉字拆分的相关因素由型的分类与性质,型的部位关系,型之间的连接关系所组成;其中用于编码和输入的信息由″音信息″和″序码″组成。2.按权利要求1所述之编码方法,其特征在于所述之五个不拆分原则为(1)一个笔画不允许拆成两截,断在两个型中,原因单一笔画理应完整;(2)相交叉的笔画不允许拆分,原因″交叉″是一种紧密的组合方式;(3)相端连的笔画不允许拆分,原因″端连″也是一种紧密型组合方式;(4)由两笔构成的汉字和常用非字偏旁不允许拆成笔画,原因由笔画的原始功能推理而得;(5)至少被某一笔画完全隔离的,结构上对称分布并被包容的,两个单笔画不允许拆出组成一个型,原因文字学指出″汉字的结构是一种积木式结构″。3.按权利要求1所述之编码方法,其特征在于汉字拆分的相关因素一型的分类与性质为一个型在汉字中的″稳定性″---既做″基本型″能力的大小,与构成它的笔画数有关,也与笔画间的组合方式有关,坐标码根据笔画数和组合方式将汉字中的型分类如下(1)单型仅有一个笔画的型称″单型″,型元集有两个单型型元,一和乙。性质单型的稳定性最弱,只有特殊情况下才可以做基本型;(2)偶型由两笔构成的型称″偶型″;性质偶型的性质很特殊,汉字结构不确定因素集中地反映在偶型的身上。偶型的″稳定性″居于单型和成型之间,偶型可否作基本型受诸多因素的影响,(3)成型由三笔及三笔以上笔画构成的型称″成型″,成型根据笔画之间的组合方式又分为三种1)正闭合型至少三面是由横,竖线段构成的闭合型及与之相交叉的笔画称″正闭合型″;2)相交型笔画间含有相交关系的成型称″相交型″3)堆积型笔画间仅含粘连,离散关系的成型称″堆积型″性质成型的″稳定性″比较强,以成型元而言,一般情况下它们都是基本型,只有特殊情况下,成型元也可以不是基本型。4.按权利要求1所述之编码方法,其特征在于汉字折分的相关因素--型的部位关系,部位关系是指汉字中型之间彼此的位置关系,汉字结构的部位关系共有四种单一关系,上下关系,左右关系,内外关系,坐标码认为上下,左右部位关系中的型,彼此之间相对独立,是一种并列关系,适宜拆分;而内外关系中的型,彼此之间存在一种联系,相对而言独立性较差,对拆分有一定的约束。5.按权利要求1所述之编码方法,其特征在于汉字折分的相关因素--型之间的″连接关系″,″连接关系″是指两型之间的接触方式,即笔画之间的连接方式,型之间的连接关系分为两类″离散″与″粘连″,离散,显然是有利于拆分的条件;粘连,根据情况又可分为三种具体情况(1)正闭合两个型若组成正闭合型,则两个型之间的粘连方式称″正闭合″;(2)直连两型之间相粘连笔画之间的关系,均为直连关系时,两型之同是″直连″关系;(3)斜连两型之间相粘连笔画之间的关系,存在斜连关系时,两型之间就是″斜连″关系;坐标码认为,正闭合是型之间紧密的粘连方式;直连是比较紧密的连接方式,斜连是最弱的粘连方式。6.按权利要求1所述之编码方法,其特征在于汉字的折分规则为规则1完全由型元组成的汉字和型层,型元均是基本型,可拆;规则2拆不出型元的汉字和常用非字偏旁,即无型元做为判定依据时,其本身也是型元,不可拆;规则3当型元和非型元型相组合时,型元不一定是基本型,拆分结果与(1)型的类别(2)部位关系,(3)连接关系三者有关;1)型与型之间有四种连接方式,对于正闭合″坐标码规定规则3-1型与型为正闭合关系时,仅当双方均为型元时可拆,两者都是基本型,否则不可拆;2)对于型之同的″离散″和″直连″″斜连″三种连接方式,坐标码有如下规则规则3-2当型元是成型元时,只要对方不是单型,即可拆分,双方均为基本型″;规则3-3当型元是偶型元时,拆分结果将取决于″型的类别,部位关系和连接关系″三个因素″;①当对方为偶型和堆积型时即不粘连也不是内外关系时,双方均是基本型,可拆;存在粘连情况(直连或是斜连)或内外关系时,偶型元是基本型的一部分,不可拆;②当对方为相交型时在斜连或离散情况下,不论部位关系如何,双方均是基本型,可拆;在直连情况下,上下,左右部位关系可拆,双方均为基本型;内外部位关系不可拆,型元是基本型的一部分;规则3-4″当型元是单笔型元′一′和′乙′时,仅当(1)对方是成型;(2)彼此离散;(3)不为内外关系,三个条件均满足时,可拆,双方均为基本型,否则不可拆规则4单笔画撇、捺不允许单独做基本型;单笔画横、竖、折可以单独做基本型,但要同时满足下面三个条件与相邻型不为内外关系;与相邻型不粘连;相邻型是型元;规则5当″一″与其它型元相组合时,″一″在拆分过程中以笔画横对待,拆分结果不受它的型元身份的影响,拆分结果是基本型,″一″是型元;否则,就是笔画横;规则6准型元在汉字拆分上,其功能等同于成型元;规则7型层与单笔画″横,竖,折″相组合时,单笔画是基本型;规则8拆分汉字出现两种情况时,根据下述顺序拆分(1)对于型元″型元优于非型元;成型元优于偶型元;正选型元优于归并型元″;(2)对于连接关系″离散优于粘连;斜连优于直连″;7.按权利要求1所述之编码方法,其特征在于用于编码和输入的信息--为音信息和序码,音信息是型元基本型码名的第一个拼音字母;序码为有规律的两笔笔画的组合,它们是汉字特征信息元″基本型″的特征信息。8.按权利要求1所述之编码方法,其特征在于坐标码与键盘的对应关系为音信息与键盘字母一一对应,序码对应关系如下序码(首笔/次笔)一/一一/丨一/丿一/丶一/字母GFDSA序码(首笔/次笔)丨/一丨/丨丨/丿丨/丶丨/字母HJKLM序码(首笔/次笔)丿/一丿/丨丿/丿丿/丶丿/字母TREWQ序码(首笔/次笔)丶/一丶/一|丶/丿丶/丶丶/字母YUIOP序码(首笔/次笔)/一/丨/丿/丶/字母BVCXZ。9.按权利要求1所述之编码方法,其特征在于编码规则为单字编码规则和词组编码规则,其中单字编码规则一般情况为单型字码长为3,由字型元的音和全序码组成,即″音″+″全序码″+空格双型字码长为4,第1,2码,按笔顺提取基本型的″音″或″音序码″,第3,4码,按笔顺提取基本型各自的″端序码″;三型字码长为4,第1,2,3码,按笔顺提取三个基本型的″音″或″音序码″,第4码取整字的″端序码″;多型字码长为4,按笔顺提取第1,2,3末基本型的″音″或″音序码″;特殊情况为坐标码将首基本型为艹,木,氵,,亻,口6个型元的汉字做为特殊情况,单立编码规则,单型字与多型字编码规则同一般情况;双型字码长为4,第1,2码,同一般情况;第3,4码,取″次基本型″的全序码″三型字码长为4,第1,2,3码同一般情况,第4码取后两个基本型的端序码;词组编码规则双字词每个字取其全码的前两个码;三字词第1,2,3码分别是三个字的拼音首字母,第4码取末字全码的首码;多字词顺序提取第1,2,3,末字的拼音首字母。全文摘要本发明属于一种计算机汉字输入之编码方法,本编码方法由坐标码无“字根集”的拆分方法与坐标码的编码方法所组成,其拆分方法包括坐标码五个不拆分原则,汉字拆分依据---型元型,汉字拆分相关因素,汉字拆分规则,其编码方法有编码和输入的信息,坐标码与键盘的对应关系,编码规则等。优点:编码方法简单,易于实现计算机汉字快速输入、重码率低,便于记忆,便于学习。文档编号G06F3/023GK1173660SQ9611952公开日1998年2月18日申请日期1996年10月31日优先权日1996年10月31日发明者叶平申请人:叶平

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值