句法分析是自然语言处理中的关键底层技术之一,其基本任务是确定句子的句法结构或者句子中词汇之间的依存关系。
句法分析分为句法结构分析(syntactic structure parsing)和依存关系分析(dependency parsing)。以获取整个句子的句法结构或者完全短语结构为目的的句法分析,被称为成分结构分析(constituent structure parsing)或者短语结构分析(phrase structure parsing);另外一种是以获取局部成分为目的的句法分析,被称为依存分析(dependency parsing),本节中主要介绍后者。
本节中还介绍了一种基于神经网络句法分析器,并解释了优点在哪里,在assignment2中需要完成这样一个分析器。
一、语言学的两种观点
目前有两种主流观点:一是短语结构语法(Constituency),用某种规则分解句子为短语和单词、分解短语为更短的短语或单词。另一种就是此次的主要内容,依存结构,用单词之间的依存关系来表示语法,这也是高中时语文和英语中学的语法。如果一个单词修饰另一个单词,则称该单词依赖于另一个单词。
二、依存分析
用依存句法可以做的是,通过找到句子当中每一个词所依赖的部分,来描述句子结构,如果一个词修饰另一个词,那么它就依赖那个词。例如 barking dog 中的 barking 依赖 dog,因为 barking 修饰 dog,large barking dog 中 large 也修饰 dog 那么large 依赖 dog ,dog by the door 中 by the door 也依赖 dog ,我们就可以在词之间添加依存关系。通过箭头来表示它们之间的