汉语语句的计算机分析,汉语句法分析方法分析-计算机应用技术专业论文.docx

本文探讨了自然语言处理中的句法分析问题,特别是针对中文句子。研究了Chan算法的改进版——角色反演算法,通过改进静态数据表构造和引入概率信息提高效率和准确性。此外,提出了一种分层方法解决长句分析的挑战,利用标点符号进行句子分割,提高分析速度和精度。最后,提出了一种结合内部成分结构和中心词信息的词汇化PCFG模型,改进了歧义消解。实验表明,这些改进显著提升了句法分析的性能。
摘要由CSDN通过智能技术生成

摘要句法分析是自然语言处理中的关键性问题之一,其主要任务就是自动识别句

摘要

句法分析是自然语言处理中的关键性问题之一,其主要任务就是自动识别句 子的句法结构,即句子包含的句法单位以及这些句法单位相互之间的关系。句法 分析问题的解决对于机器翻译、自然语言理解、信息抽取和自动文摘等自然语言 处理系统都有着极其重要的意义。在基于统计的句法分析方法中,最关键的两个 问题是句法分析算法和歧义消解模型的设计,他们决定着句法分析系统的效率和 分析正确率。本文从事的工作则从这些方面入手,实现了一个高效的中文句法分 析器,主要研究工作如下:

1.在句法分析算法方面,对传统的句法分析算法从处理策略,算法的时间 和空间复杂度等方面进行了综合分析和比较。并在此基础上,详细研究了Chan 算法的一个改进算法——“角色反演算法”。针对该算法,本文在两方面提出进

一步的改进。首先改进了算法中采用的静态数据表的构造方法,使得该算法能处 理的原始输入词性标记从最小的句法单元——词,扩展到更高一级的句法单元

——短语和句子,以很小的额外空间消耗为代价,提高了算法的处理能力和效率。 然后,引入规则的概率信息对静态表排序,有利于后续分析的搜索和剪枝过程。

2.针对复杂长旬句法分析的困难,通过分析标点符号在长旬构成上的作用 和规律,针对长旬提出了一种分层的句法分析方法。该方法把标点符号分为分割 标点和普通标点两类,根据分割标点将复杂长旬分割为句子单元序列独立进行第 一级分析,然后把第一级分析得到的结果作为第二级分析的输入,最终输出结果 为完整的句法分析树。另外,通过提取含有所有两类标点符号的文法规则,在一 定程度上帮助了句法结构歧义的消解。实验证明该算法大大降低了长句分析的时 恻复杂度,并且比传统的一遍搜索方法的正确率和召回率均提高了7%。

3.在歧义消解模型方面,在传统的概率上下文无关文法(PcFG)模型的基 础上,提出了一个包古内部成分结构信息的PcFG模型,并进一步引入中心词信 息,得到包古内部结构成分信息和中心词信息的词汇化PCFG模型。并且,本文 提出了根据内部成分结构标记确定中心词的方法,此方法比传统的中心词确定方 法具有更高的『F确性和直观性。

ABSTRACTParsing

ABSTRACT

Parsing is one of the fundarnental problems in naturallanguage pmcessing.h’s main task is to automatically recogIlize the syntactic structure of semences.Most of natural

lallguage印plications such as machme traIlslation,naturallallguage understanding, information extraction and automatic summarization、帕uld benent fmm tlle accurate

parsing reSults.In the parsing approach based the statistical model,there two key issues:parsing algorit胁designing and parsing modeling fbr disalllbiguation,

which decide nle e街ciency and accIlracy ofa parSing system.ThiS也esis is mainly in mese aspects and constructs e伍ciem parSing sygtem.The main contributions sllnlmarized fol】ows:

1.111 parsing algoritllm,most mlditional parsing algoritllms盯e analyzed and compared mainly in the processing Strategy'time consumption a11d space consumption. A‘‘role inverse algOrilhm”which is an improved Version ofC王lart parsing algorithm is studied detailedl矿Based on也is algorit№,this thesis proposed two aspects of

improvement.Firstly,the static mle tables extended,so matⅡle o

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值