「资讯处理用中文分词规范」设计理念及规范内容

「资讯处理用中文分词规范」设计理念及规范内容


一  摘 要
     「资讯处理用 中文分词规范」有下列两个突破1)提出分级的观念及确立信,达,雅三级的标准.最容易达到的信级订为基本资料交换的标准;技术上较难,但自动分词程式仍可达到的达级作机器翻译,资讯检索等自然语言处理的标准;至於最需要人工分词才能达到的雅级则视为电脑处理,理解中文之最高目标.(2)把分词规范分成不变核心(分词单位定义及基本原则),以及可变准则(辅助原则).在确定分词规范架构後,只要定时更新基本词库或特殊领域的专门词库,便可维持分词规范的不变性.
规范制定的过程
        根据美国资讯专业期刊 (AI Trend 1991) 的预测,随著自然语言处理技术日趋成熟,相关软体产品的研发将成为未来资讯产品的主要潮流.一个明显的例子如苹果电脑已推出能辨认英文语音指令的个人电脑,另外Thinking Machine公司已发展出能以近似自然语言查询全文资料库的WAIS全文检索系统.不过,中文在这些方面的产品开发上仍远落後於西方语言.
        中文在自然语言处理方面有一个很不便的地方就是中文词和词之间在书写时传统上并不断开(如西方语言多半以间距标示词的界限),因此在词的界限上很难有一个简单清楚的区分,这使得中文在自然语言处理时必须增加分词这个程序而影响了相关软体产品的研发.然而词的界定问题不但一般使用者无从依循,连汉语语言学家至今仍无定论.
有鉴於制订分词标准的重要性,大陆方面在1989年制订【信息处理用现代汉语分词规范】,并於1993年上报为(GB)标准.台湾的计算语言学会(ROCLING)在1991年开始草拟分词规范,初步订定了中文分词的原则,并於1995年下半年起接受中央标准局的委托,进行中文分词规范的建立,研拟「资讯处理用中文分词规范」,希望能为中文资讯科技提供一套通用的参考,减少彼此之间的差异,为自然语言处理环境奠定良好基础.由於海峡两岸用语多少有些不同,而且为因应中文自然处理的个别需求,这两套规范之间虽然精神雷同却有些技术上的差异.
        分词规范的研拟分为两种方式进行,一方面是邀请台湾知名的学者专家召开讨论会,就其专业领域的角度,对分词规范的大方针进行讨论;另一方面则是中央研究院词库小组根据分词规范,实际从事语料分析,从上百万的语料中,整理出分词标准的细节规定.为此,我们特别在计算语言学通讯开辟「『搜』文解字」专栏,针对值得重视的分词现象提出讨论,广邀各方意见.相信「资讯处理用中文分词规范」的拟定对於未来「资讯用分词国家标准」的实施有实质的助益,能有效推动中文资讯界技术发展.

二,制定规范的设计指导原则

        为了因应自然语言处理的需求,在制定分词规范时,有三个要件缺一不可.亦即(1)必须符合语言学理论要求,(2)在资讯处理上确实可行,和(3)确保实际文本资料一致性.这是我们制定「资讯处理用中文分词规范」时的指导原则.也因有了这三条指导原则,本规范与大陆出版【信息处理用现代汉语分词规范】有以下三条较不同的思考方式.
GB【信息处理用现代汉语分词规范】所规范的不是「词」,仅仅只是供信息处理用的「分词单位」.而且,在词的辨认上由於没有最高指导原则,许多问题处理难免会有前後矛盾情形产生.或是理由不清,必需直接规定的武断作法.它的作法是依个别词型,考虑机器处理的方便可行,分别规定其切分标准.它并不定义词,也不提出辨词的最高原则.
由於是依个别词型一一规范,凡是没有规范到的或规范不够清楚的部分都成了分词规范的死角.例如:这套分词规范并没有谈到动後修饰词之分词办法.又例如该规范对偏正式复合词(包含名词和动词)的说明不够清楚,只以「结合紧密,使用稳定」来规范,无法当作一个明确可行的规范.
       【信息处理用现代汉语分词规范】并未对自动分词的技术瓶颈深入探究,只是在拟定个别词型切分原则时考虑了自动分词的可行性.但是电脑技术日新月异,现在看来不易处理的问题将来也许都可迎刃而解,那岂不又要修改分词规范了?我们认为分词草案中提出的层次划分的概念才能彻底有效掌握自动分词上的技术困难.
计算语言学学会的「资讯处理用中文分词规范」如何达成此三项指导原则的要求呢?以下分项说明之.
1. 符合语言学理论之要求
订定分词规范的首要工作是定义切分字串的基本单位,对资讯处理而言,所谓的词是以何为依据?我们定义一个具有独立意义,且扮演特定语法功能的字串应视为一个词.虽然没有使用语言学专门术语来定义切分单位,但是根据定义,动词,名词,副词,定词,量词,介词,方位词,连接词,语助词,感叹词皆可依类一一断开.另外,像动词,名词,或是结构复杂字串的判定较复杂,需要细则来规范其分合标准.因此除了定义外,必须另有原则规范分词.我们提出两条基本原则以及六条辅助原则.两条基本原则分由语意及语法出发,给词(分词单位)更妥善的定义.而辅助原则系根据语言现象而定的判断原则;因为这些辅助原则多因语料变异而随时修订,提供了在语言演化时,可不变动基本定义而仍可忠实处理当代语言的理想架构.
2. 在资讯处理上确实可行
资讯处理用分词规范订定的目的是为中文语文资讯交换订出一套中文词的规范.从语言学的观点而言,词的基本定义是具有独立意义,且扮演固定词类的最小字串.从分词的观点而言,分词基本原则应从两方面来考量1)语意无法由组合成分直接相加而得到的字串应该合为一分词单位.(2)词类无法由组合成分直接得到的字串应该合为一分词单位.然而就设计电脑自动化分词程式而言,这个定义及基本原则所规范的分词要领,依然非一蹴可及.其困难来自三方面:第一,词的界定是抽象概念.光由以上的简单定义及原则,并不足以转化为电脑执行程序,因此必须增加一些辅助原则并依各种不同词的类型分别讨论切分与否.第二,词集并非一个封闭集合.词可由构词律产生,人们日常也不断创造新词,因此电脑自动分词无法仅凭藉一部标准辞典来作分词依据.第三,语言的复杂性.词,复合词,片语的界线有的时候不容易区分,例如以下的多重切分似乎各有一些道理:
顾客满意度:顾客 满意 度,顾客 满意度
最早期:最 早期,最 早 期,最早期
冬夜:冬 夜,冬夜
人口贩子:人口 贩子,人口贩子
理想的分词有时会过於复杂困难,为了顾及自动分词的可行性及分词结果的应用,我们建议在理想与现实间采用一个中庸之道.因为如果陈意过高,完全无法自动化处理,也失去了订定规范的意义.但是,如果完全迁就於电脑的处理能力,与词的分界偏离,又岂能称之为分词标准?於是我们提出一套三个层次的分词标准,其精神在给予分词工作一套循序渐进,由简入繁的依循原则.每前进一个层次,就多解决一些分词难题,也就愈接近理想.也就是说,我们允许分词的结果有瑕疵,不同的分词结果各符合不同层次的标准.其层次划分也需配合自动化的可行性,层次愈低,自动化的可能性应该愈高.不同的层次有其个别应用的范围并满足不同目的,因此分词原则可灵活应用而不僵化.
3.确保实际文本资料之一致性
在确定架构後,把分词规范分成不变的核心(分词单位的定义及基本原则)以及可变的准则(辅助原则).只要固定在一段时间修订更新分词的通用词库或在应用於特殊领域时增订专门词库,分词规范便可以维持而不需改变.不但解决了语意模糊之处,使意义更清楚,而且使电子资料的交换更方便.
而且在三个层次的断词标准中,信级(最基本层次)不需要复杂电脑程式即可达到,更可确保与一般非研究单位交换电子资料时的一致性.

三,分词规范之基本架构

        资讯处理用中文分词规范的基本架构分成三部份 – 分词单位的定义,分词的基本原则和辅助原则,分词规范的层次划分.
1. 分词单位之定义:具有独立意义,且扮演固定词类的字串视为一分词单位.
分词原则
基本原则:
基本原则是从语意与语法来说明分词单位.这不只是平面的条例规定分词原则,我们将基本原则视为不变的最高指导原则,只从语法和语意两方面来作原则性的定义,而不针对某种词类作变动或一一规定.因此,我们可以在语言学理论上找到分词依据,使分词规范有执行的归依.

四  辅助原则:

        除了理论性原则外,我们也必须有操作性原则,视分词的实际状况设定分合的依据.相对於基本原则的不变性,辅助原则富於弹性,可依时代的演变,不同的文本或视情况的需要而有所增减.辅助原则并非绝对原则,而是操作原则.语料中难免有用二条以上原则的状况,若其结果相同,则加深分词结果之可信度,万一判定结果冲突,则以适用原则较多之结果分词.但若适用原则条数皆同,还可用定义及基本原则作最高层次之制定.
(分词用)词汇库:
        根据分词规范产生的词汇库,可以是一个用於不同文本的通用词库,至於特殊领域或应用的专门词库,可依不同应用及领域而增补之.甚至不同地域或时间造成所用语词的变动,也可随文本及时间演变用法差异的不同而有所修正.
分词规范层次的划分
         为了使分词电脑自动化,我们按其困难程度,将分词规范分成信级,达级,雅级等三个层次处理.最容易达到的信级标准订为基本资料交换的标准,而把技术上较难,但自动分词程式仍可达到的达级标准作机器翻译,资讯检索等自然语言处理的标准;而把目前最需要人工分词才能达到的雅级标准作为电脑处理,理解中文之最高目标以及作为构建中文标记语料库等标准参考资料的规范.每一层次的应用及困难度列於下列表格中.
应 用 上 的 区 分
自 动 分 词
困 难 程 度
建 议
信级
基本资料交换.
取得词项基本资料.
解决歧义切分.
应於未来建立标准词集及特殊领域词集.
达级
一般自然语言处理.
如,建立词双连语言模型等
可以用规律解决复合词,较无复杂切分问题.
达级应将不同类型的切分与否设为标准中的可变参数.
雅级
词切分的理想境界.
语法,语意的抽取.
如,语音合成,语意分析
不同的语感或观点可能造成不同切分结果,达到圆满一致,极为困难.
(1)除切合词外应有标示词性,词内部结构之标准.
(2)雅级应探求可供客观评估的或处理的辅助原则.
表一 各级分词标准的应用及建议
由以上的讨论可看出,信级切分只要考虑歧义切分的问题几乎可完全自动化.在达级层次中,只要构词律够完备,比较容易达到完全自动化.基於我们在构词律上多年研究,对这点我们持乐观态度.对於复杂的词汇类型,有时以人为判断都会有不一致情形发生,自动化就更困难了.因此建议提出各个复杂类型可以简易辨别的准则,这个准则离真正的理想切分可能不是完全吻合,但若相去不远应该也是可以接受的.
黄居仁*. 陈克健**. 陈凤仪**.魏文真**.张丽丽**
*中央研究院历史语言研究所
**中央研究院资讯科学研究所
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值