摘要句法分析是自然语言处理中的关键性问题之一,其主要任务就是自动识别句
摘要
句法分析是自然语言处理中的关键性问题之一,其主要任务就是自动识别句 子的句法结构,即句子包含的句法单位以及这些句法单位相互之间的关系。句法 分析问题的解决对于机器翻译、自然语言理解、信息抽取和自动文摘等自然语言 处理系统都有着极其重要的意义。在基于统计的句法分析方法中,最关键的两个 问题是句法分析算法和歧义消解模型的设计,他们决定着句法分析系统的效率和 分析正确率。本文从事的工作则从这些方面入手,实现了一个高效的中文句法分 析器,主要研究工作如下:
1.在句法分析算法方面,对传统的句法分析算法从处理策略,算法的时间 和空间复杂度等方面进行了综合分析和比较。并在此基础上,详细研究了Chan 算法的一个改进算法——“角色反演算法”。针对该算法,本文在两方面提出进
一步的改进。首先改进了算法中采用的静态数据表的构造方法,使得该算法能处 理的原始输入词性标记从最小的句法单元——词,扩展到更高一级的句法单元
——短语和句子,以很小的额外空间消耗为代价,提高了算法的处理能力和效率。 然后,引入规则的概率信息对静态表排序,有利于后续分析的搜索和剪枝过程。
2.针对复杂长旬句法分析的困难,通过分析标点符号在长旬构成上的作用 和规律,针对长旬提出了一种分层的句法分析方法。该方法把标点符号分为分割 标点和普通标点两类,根据分割标点将复杂长旬分割为句子单元序列独立进行第 一级分析,然后把第一级分析得到的结果作为第二级分析的输入,最终输出结果 为完整的句法分析树。另外,通过提取含有所有两类标点符号的文法规则,在一 定程度上帮助了句法结构歧义的消解。实验证明该算法大大降低了长句分析的时 恻复杂度,并且比传统的一遍搜索方法的正确率和召回率均提高了7%。
3.在歧义消解模型方面,在传统的概率上下文无关文法(PcFG)模型的基 础上,提出了一个包古内部成分结构信息的PcFG模型,并进一步引入中心词信 息,得到包古内部结构成分信息和中心词信息的词汇化PCFG模型。并且,本文 提出了根据内部成分结构标记确定中心词的方法,此方法比传统的中心词确定方 法具有更高的『F确性和直观性。
ABSTRACTParsing
ABSTRACT
Parsing is one of the fundarnental problems in naturallanguage pmcessing.h’s main task is to automatically recogIlize the syntactic structure of semences.Most of natural
lallguage印plications such as machme traIlslation,naturallallguage understanding, information extraction and automatic summarization、帕uld benent fmm tlle accurate
parsing reSults.In the parsing approach based the statistical model,there two key issues:parsing algorit胁designing and parsing modeling fbr disalllbiguation,
which decide nle e街ciency and accIlracy ofa parSing system.ThiS也esis is mainly in mese aspects and constructs e伍ciem parSing sygtem.The main contributions sllnlmarized fol】ows:
1.111 parsing algoritllm,most mlditional parsing algoritllms盯e analyzed and compared mainly in the processing Strategy'time consumption a11d space consumption. A‘‘role inverse algOrilhm”which is an improved Version ofC王lart parsing algorithm is studied detailedl矿Based on也is algorit№,this thesis proposed two aspects of
improvement.Firstly,the static mle tables extended,so matⅡle o