一、问题描述
这是一篇使用神经网络来做依存句法分析的经典文章,传统的依存句法分析特征向量稀疏,特征向量泛化能力差,特征计算消耗大,用神经网络做transition-based贪心模型可以缓解上述问题,准确率提高,速度变快。由于源代码是java写的,所以本人看了用tensorflow改写的代码,但是该代码存在一些问题,只预测是LEFT-ARC,RIGHT-ARC,SHIFT中的一种(即三分类),但没有预测ARC是哪种依赖关系(label),也就是只预测unlabeled attachment scores(UAS),不能预测labeled attachment scores(LAS),但是有助于特征处理以及整个模型过程的理解,看不懂论文和博客的建议看一下代码。
二、transition-based dependency parser
首先每一个决策过程都是基于当前的状态(configuration)做的决策(transition),做好transition后更新configuration进入下一步决策过程中,做决策时采用贪心算法哦,就是每一步都选择当前认为最好的transition就行,这样只损失了一丢丢准确率,换来了速度的大幅度提升。
configuration:,
是一个栈(stack),
为缓存队列(buffer),
为当前已经画好的依赖弧线集合(dependency arcs),假设一个句子为
,
为句子中的单词哦,初始configuration为
,
,
,如果一个configuration的buffer是空的,且
,则这是最后一个configuration,即终点状态哦,即结束整个决策过程了哦。
transition:有三种,LEFT-ARC,RIGHT-ARC,SHIFT。下面详细介绍,先用代表stack的第几个top元素(注意栈的先进后出哦,是按出的顺序算第几个的),用
对应buffer中的第几个元素(队列先进先出,是按出的顺序算第几个的),则
:当stack中元素个数大于等于2时,添加一个dependency arc为
,且该arc对应的依赖关系(label)为
,然后将
从stack中移除。