发表于ACL2018
远程监督是关系抽取任务中常用的做法,但存在一个非常明显的问题,就是数据噪音问题。以往方法或者从所有远程监督句子中选取一个打分最高的作为正例,但这样会损失很多信息;或者使用软对齐的方法,通过加注意力机制,但是消除噪音的效果并不完全,且在极端情况(所有句子都是负例)的时候无效。本文认为硬对齐才是更好的消除噪音的方法,采用强化学习对每个句子做决策:留在正例集合中还是换到负例集合中。reward定义为调整后数据集上分类器的F1值的增幅。
由于每次reward只有在全部决策后才能得到,policy-based RL比value-based 更合适。
使用监督训练初始化,大大减少训练时间,即根据原数据集的正负例训练agent。
每次设定最多删去句子的上限。
notes:
reward的设计:相邻两次F1的差,以及仅在相邻两次不一样的action上计算梯度