Outline:Manning研究线
Span ranking model线
第一部分 Manning and Clark研究线(2016)
1. Deep Reinforcement Learning for Mention-Ranking Coreference Models
这篇文章解决问题:强化学习思想用在Mention-Ranking Model 中。
1.1Baseline模型:
指代消解模型一般可以分为两个阶段:第一阶段先找出文章中我们需要找到的Mention。第二阶段对所有找到的Mention分成一簇一簇,一簇就是不同的Mention指代了相同意思的集合。
在文章中假设已经通过某种算法对文本进行了Mention的抽取。所以只讨论第二阶段。
Mention-Ranking定义了一个序列问题,假设m个mention,遍历m个mention,在每个mention上计算当前mention的每个先行词组成一个pair的向量表达,如图:
再过一个:wx + b 的layer可以轻松得到一个分数,最后选一个最大的分数的pair,说明mention和这个先行词是我们找的一对共指。
如图如果遍历到了x3上,分别计算他的先行词x1, x2和他组成pair(x1, x3),(x2, x3)的分数,然后取最大的作为一对共指。
loss function:
这里红框中的是mi和先行词组成pair中分数最大的。
公式如下:
是一个衡量不同错误所受惩罚的权重系数,实验中有一个固定的最好值:
然后梯度更新这个loss。
1.2 加入强化学习改进
文章中提到两种方法的改进:Reward Rescaling 和 The REINFORCE Algorithm
Reward Rescaling:
其实就是改进了Baseline model loss function的
这个衡量不同错误大小的权重系数,在这里使用了强化学习中reward的定义,值得一提这里的reward使用了指代消解的一个评测方式
来定义,
公式:
直接意思:如果mention i 选择了先行词c作为一对共指,看看奖励总数和去掉他的奖励总数差距多少,差距小就是影响小,证明这个错误是个小错误,相应权重系数也小。
The REINFORCE Algorithm:
整个过程模拟强化学习:
action:
待续
参考文献:
Improving Coreference Resolution by Learning Entity-Level Distributed Representations
Deep Reinforcement Learning for Mention-Ranking Coreference Models