1.概念
依存句法分析通常通过依存弧连接句子中的两两词语,以表示其句法关系,最终形成能表示整个句子句法关系的依存树。
{h,m,l}表示一条连接弧,h(head)表示核心词,m(modifier)表示修饰词。l表示连接弧类型(修饰关系)。h--->m表明m修饰h
对于每个句子,只有一个词语是总核心词(根节点),定义一个伪词w0作为总核心词s的父节点,w0--->s
依存句法分析通常满足3个约束:
1.单核心,即句子中每个词语都只依存于一个核心词
2.弱联通
3.无环(每个连接弧是单向的)
2.依存句法分析的两个基本问题
依存句法分析主要是对输入的句子,给出分值最高的依存树。因此包含两个基本问题(1)评分(score)(2)解码:即基于句子特征权重,构造满足约束的依存树
3.依存句法准确率指标
UAS=核心节点正确的词数/总词数*100%
LAS=核心节点正确且依存关系也正确的词数/总词数*100%
CM=依存树完全正确的句子数/总句子数*100%
RA=根节点正确的句子数/总句子数*100%
4.解码
4.1. 基于图的依存句法分析方法——从完全有向图中寻找最大生成树的问题
4.2. 基于转移的依存句法分析方法——通过一系列移进、规约等转移动作构建一棵依存句法树,学习的目标是寻找最优动作序列
两种方式对比:与基于图的方法相比,基于转移的方法时间复杂度更低,且能采用更丰富的特征,分析准确率与图方法相当
5.基于转移的依存句法分析
转移系统:初始状态---(状态转移动作)--->n个中间状态----(状态转移动作)---->接受状态,将一个状态表示为<栈,缓存,已分析好的依存弧>
初始状态:栈中只有伪词w0,整个词语都在缓存中,没有依存弧
接受状态:栈中只有伪词,缓存清空,所有的依存弧<