含词尾的三单字新词识别设想

http://blog.sina.com.cn/s/blog_47e1f1790100026k.html

引       言
0.1中文信息处理中的新词问题
语言学意义上的新词又称新造词,指的是随着社会的发展,词汇的不断丰富而出现的表示新的事物和概念的词汇,其形式也是新的。新造词主要是利用原有的语言材料,按照原有的构词方法构成的。
中文信息处理领域一般把新词看作未登录词①的一部分。微软亚洲研究所的黄昌宁先生将词定义为词表词(LW)加上未登录词(OOV),新词就是未登录词中除去日期、时间、百分数等,人名、地名、机构名等专名和词法派生词的那部分。也有人认为新词是未登录词中除专名以外的其他所有词语。② 在这里,我们采用黄先生的定义。
众所周知,未登录词的辨识是自动分词所面临的一个较大困难,也是影响分词精度的主要因素之一。许多分词算法都是在完备词表的假设下设计的,其实这一假设并不成立。汉语和其他自然语言一样,它的实词部分永远是一个开放集,不但因为社会上的新词将不断涌现,而且专有名词虽然不新,但也不可能尽收,如人名、地名、机构名、译名等等。由于未登录词造成的分词错误远远超过歧义切分字段引发的错误,因此近年来这个问题已成为自动分词研究的焦点。据黄先生的统计,新词约占未登录词的31%,仅次于日期、时间、百分数等;而在实际操作中,超过60%的分词错误来源于新词。由此可见,解决新词的识别问题对提高分词精度具有十分重要的意义。
             
0.2三字新词的分析
北京工业大学的吴赣等人对17万字的科普性文章进行专名以外的未登录词构词模式的分析,结果表明:按“二字词+单字”模式构成的约占37%,按“单字+二字词”模式构成的约占13%,按“单字+单字+单字”模式构成的约占9%。综合即得,三字词共约占59%,数量可观。黄昌宁先生在北大约94.8万词次的测试语料中统计,结果表明:占11%的新词中有不少“1+1+1”模式,如十六大、农牧业等。由此可见,三单字新词的识别是新词辨识的一个重点。
1词尾和含词尾的三字新词
1.1 词尾的定义及与后缀等相关概念的区别
1.1.1 关于词尾的概念
我们经观察发现,“单字+单字+单字”和“二字词+单字”模式中的最后一个单字多为组合性很强的非词语素,具有使词义类化的作用,类似语言学上后缀的概念。考虑到中文信息处理的实际需要,我们给予这类语素以“词尾”的定义,界定规则如下:
(1)位置固定,一般出现在三字词的最后一个汉字的位置上;
(2)有一定的语法意义,可表明词的性质或使词性发生变化,并有使词义类化的作用;
(3)一般为非词语素,不能单独做主语;
(4)组合性和能产性强,可构成大量三字新词。
需要说明的是,以词尾为直接成分构成的三字组合一般可以认为是一个词,(或者说是一个切词单位,)是一定要归并的。词尾前面也可能出现结构较复杂的多字结构的情况,这时候处于末尾字位的那个非词语素,不在我们考察的词尾范围内。词尾不等同于实词素,实词素无语法意义,而词尾有。另外,也有一些特殊词尾,如“人”、“手”、“风”虽然也可以单独做主语,但做主语时的含义与做词尾时有区别,因而也在我们的考察范围内。
词尾的定义使得三字新词中的较大部分都归入了一个有着相同特点的集合中,可以想见,
1.1.2词尾与相关概念的区别
词尾与语言学上的后缀和计算语言学界学者提出的后缀成份、后加成分及后位构词模板概念都有区别。
词尾不同于语言学上的后缀概念。朱德熙先生在《语法讲义》中指出:“真正的词缀只能粘附在词根成分上头,它跟词根成分只有位置上的关系,没有意义上的关系。”①由此他总结出现代汉语中的后缀只有“子”、“儿”、“头”、“们”、“了”、“着”、“过”、“的”和“得”,这些语素基本已完全虚化,只表示抽象的语法意义,词根的可替换性弱且前多为单字。按照这种要求,则在新词中出现频繁并且能产性很强的“性”、“化”、“制”等都不能进入后缀集合。其后,吕叔湘先生又提出“类后缀”的概念,即一些“在语义上还没有完全虚化,有时候还以词根的面貌出现”②的语素。相比之下,“类后缀”的含义更接近词尾。
词尾不同于吴赣、宋柔等人提出的后缀成份。吴赣等认为:“由多字结构后面跟单字非词语素所构成的能独立使用的字词串为带后缀的词语,”称“这种结构后部的单字非词语素为后缀成份。”后缀词语介于词和词组之间,不同于词尾直接参与构成的三字词。词尾与后缀成份有重合也有偏差,如“们”不是词尾,但属于后缀成份;“儿”、“子”是词尾,但不属于后缀成份。
词尾不同于信息处理用现代汉语分词规范GB/T13715—92中的后加成份。分词规范中没有明确界定后缀的内涵,只罗列了一些后加成份,又称接尾词,分为完全虚化的、虚化的和不虚化或基本虚化的三种类型,它所涵盖的范围小,后加成份数量少,只有十几个。我们提出的词尾包括了后加成份的大部分,但也有少许后加成份不是词尾。
词尾也不同于清华大学研究者在做新词识别过程中提出的后位构词模板。后位构词模板主要针对二字新词而言,范围较大,包括了可以作为词独立使用的语素,像“上岗”“下岗”的“岗”、“上班”“下班”的“班”、“快车”“慢车”的“车”等。后位构词模板有的能产性可能不强,但总体覆盖面广,利于全面处理新词。目前,我们暂未展开做这一大范围的研究。
1.2含词尾的三字新词             
在三字新词的三种模式中,“二字词+单字”和“单字+单字+单字”两种模式的大部分词例都是末位单字为词尾的,对此,我们统称为——含词尾的三字新词。结构如下:
二字词+词尾
   ①含词尾的三字新词                                                                                 
单字+单字+词尾
                                                                     
含词尾的三字新词数量上约为三字新词总数的80%,分布比较均匀,词例也较为常见,像“择校生”、“削果器”、“创造性”等。根据我们的观察,发现这些三字新词的结构有一定规则可循,掌握这些规则就给计算机识别从未“见过”的新词提供了可能。例如,根据分析词尾为“器”的三字新词,像“传感器”、“变压器”、“互感器”等,我们发现其前二单字的词性大多为V/Vg+N/Ng,则可以总结出规则:词尾“器”前若有两个单字,而这两个单字的词性又依次为V/Vg和N/Ng,则判定这三个单字组成了一个三字新词,予以归并。小范围实验证明:引入该规则后,原本被切成三个单字的“削果器”得到了正确的归并。 
这种含有具附加意味语素的新词识别问题的解决有赖于传统语言学界和计算语言学界的双重知识,而关于词尾或者说是后缀问题的研究,至今尚无统一结论。在分词实践方面,计算语言学界取得了该类型新词识别的一些成果。刘开瑛在1.58M字节的语料中,把单字碎片组成二元组、三元组和四元组,并在三元组中增加前后缀审核,得到占原三元组2.09%的有效三字新词。②吴赣等人在4M的语料中对含有 “者”、“员”等23个高频后缀成份的后缀词语的词串进行人工标注和归纳,总结出一批规则,然后在200万字的语料中进行开放测试,结果将现有分词精度(98%~99%)提高了2.7‰。黄昌宁先生等人通过后位构词模板的归纳和类比度计算,结合词频、反词表等其他特征,测试结果2+1模式的新词平均精确率达到54.7%,将总的分词平均精确率提高了6.5%,未登录词召回率改进了24.5%。

2含词尾的三字新词的识别分析
2.1基础统计数据分析
2.1.1训练语料 
我们选择《人民日报》1998年1月份前20天的人工标注语料作为训练语料,共3.67MB。从中人工查找在我们词尾集合中的语素,并向前看两个汉字,然后结合语境,统计出所有的含词尾的三字新词个数、词型和词例,然后在此基础上分析三单字模式的结构特点及其他性质,试图总结出一些规则。
2.1.2 数据结果和分析
我们主要以邵敬敏主编的《现代汉语通论》里列举的类后缀和国家分词规范里的后加成分为基础,结合内省以及在《人民日报》语料中考察的情况,归纳出词尾语素71个,分为人、现象、行业、特有名词和动词词尾、副词词尾六大类,即成为我们的词尾集合。如下所示:
[指人的]     ~人,~师,~者,~手,~夫,~家,~员,~生,~子,~工,~长,~匠,~女,~贩,~鬼,~汉,~迷,~户,~族,~方;
[指现象的] ~热,~风,~感,~流,~性;               
[指行业的] ~坛,~学,~派,~式,~论,~法,~度;
[特定名词] ~战,~症,~品,~机,~计,~仪,~线,~剂,~器, 
                           ~面,~期,~号,~件,~口,~级,~点,~道,~杯;
                           ~术,~功,~假,~制,~型,~质,~率,~量,~值,~度,~力,~形,~体;
                           ~金,~款,~费,~马,~物;
[动词词尾] ~行,~化; 
[副词词尾] ~然
据统计,在训练语料里,共有三字词46158个,其中含词尾的三字词8071个,占17.5%。其中,“单字+单字+词尾”模式的三字新词词例557条,占训练语料总词次的0.95‰。前两个单字的结构方面有如下特点:
(1)  首字为动词性语素的频率最高,且其与名词性语素结合的次数最多,共计53次;
(2)  动词性语素几乎可以与所有语素结合,其次是量词;       
(3)  组合频率从1到38不等,高频(10次以上)组合依次是:v+n   v+ng   v+v&m+q;
(4)  组合情况庞杂,且每种组合分布不均,难以总结规则。
训 练 语 料 三 单 字 组 合 结 构 表
  ng  vg  ag  nx
V
  38  15  13     
  Vg                   
  Vd                       
             
  Ng                 
  Nr                       
  Nx                          1
                 
  Ag                   
                 
  Dg                     
        13   
                 
                   
                     
                   
                   
                     
                     

2.2识别难点和识别策略
2.2.1 识别难点
首先是词语边界问题。汉语里词跟词的界限一直都不是很清楚,由于书写的连续性和缺乏形态变化,导致了分词实践中的组合型和交集型歧义字段的错误切分。前者如“预收费/”、“节汇率/”被误切为“预/收费”和“节/汇率”;后者如“享受/品位/生活/”可能被误切为“享受品/位/生活”。
其次是词尾前部词语的兼类问题。如“贷款”既可作名词,也可作动词。作名词如“领取贷款者”,作动词如“贷款者”;前者已超出三字范围,(不属于含词尾的三字新词,)但仍可能被计算机误切为“领取/贷款者”。①
还有单字碎片中干扰语素的问题。所谓干扰语素,即指其存在可能导致三字新词识别错误的语素。如“这一行有苦有甜”、“它的费用一定不低”中的“行”、“费”均在我们的词尾集合内,而由于干扰语素“一”、“的”的存在,识别中可能出现将“这一行/”、“它的费/”当作三字新词的错误。经观察,像这样构词力极弱的干扰语素还有“着”、“了”、“那”、“这”和一些人称代词等。另外,某些前缀语素极易与含词尾的三字词组成四字词,如“非~”、“可~”、“反~”、“多~”、“后~”、“新~”、“次~”、“单~”等,也是需要处理的干扰语素。
       含词尾的三字新词的两种模式各自特点不同,因此需要采用不同的处理方案。“二字词+词尾”中的二字词在标注时,兼类情况严重,因此,在合并三字新词时,左边界的问题比较突出;而“单字+单字+词尾”中的单字由于一般不成词,不存在兼类问题,因而左边界的问题不大,但它们之间结构庞杂,不易确定内部组合方案。
2.2.2识别策略
针对上述难点,在训练语料的统计数据分析的基础上,结合内省,我们制定了以构词规则和上下文特征规则为主的识别策略。因为新词多在分词碎片中,所以将含词尾的三字新词识别放在语料经过人工或自动分词标注之后进行。
考虑到含词尾的三单字新词的模式特点及解决难点不同,采取先找到所有可能的三字串,再进行对照词尾词表、去除噪音等识别过程。对于“单字+单字+词尾”,在找出所有单字接续对②的基础上,对每个单字接续对进行除干扰语素的工作,然后考察词尾前两单字的词性,一般只要符合训练语料中统计出的组合类型就予以合并。
通过考察,我们发现有些语素在“单字+单字+词尾”模式中出现的几率极小,但在单字串中的出现频率却非常高。这类语素我们称之为干扰语素,如千、在、又、来、和、这、那、个、几、人、得、地、的、辆、也、们、他、她、它等,还有一些几乎不可能在中间位置(第二个单字处)出现的语素,如更、一等。这些会干扰计算机识别“视线”的“BadWord”我们将放在干扰语素集中予以剔除处理。
综上所述,本文在前人研究的基础上,通过分析语料,总结出三单字新词的构造特点,并针对这些特点,以训练语料为例,着重分析了含词尾的三单字新词在自动识别时的重点和难点,并提出了初步设想的解决方案,其可行性及具体效果还要在进一步的实验中去验证。

1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看REAdMe.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看REAdMe.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看READme.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。
1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 、 1资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看READmE.文件(md如有),本项目仅用作交流学习参考,请切勿用于商业用途。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值