【paper笔记】Robust Distant Supervision Relation Extraction via Deep Reinforcement Learning-P18-1199-ACL

最新推荐文章于 2022-08-10 11:04:28 发布

乐观的Zqq

最新推荐文章于 2022-08-10 11:04:28 发布

阅读量1.6k

点赞数 1

分类专栏： deep_learing

本文链接：https://blog.csdn.net/qq_34326845/article/details/86494021

版权

本文提出了一种使用深度强化学习（RL）来处理远程监督关系抽取中的误报样本的方法。传统的远程监督方法由于噪声数据的存在，可能导致性能下降。为了解决这一问题，作者设计了一个RL代理，该代理学习如何根据关系分类器的性能变化来决定保留或删除候选样本。实验表明，这种方法可以提高关系抽取器的性能，特别是在减少假正例样本方面。相较于仅选择最佳样本或使用soft attention权重，这种方法能更有效地处理噪声数据，提高了关系抽取的准确性。

摘要由CSDN通过智能技术生成

Abstract

远程监督定义：
- 定义：只要包含两个Entity的句子，都在描述同一种关系。
- 用途：主要用来为关系分类任务扩充数据集。
- 优点：能够很快速地为数据集打上标签
- 缺点：它假设只要包含两个Entity的句子，都在描述同一种关系，这个假设会产生很多地错误标签。可能这两个Entity这是与某个主题有关。因此往往还需要用一些过滤的方法去筛选出对关系分类有用的句子，比如sentence-level Attention。
远程监督已经成为了关系抽取中的一个标准方法。虽然它是一个比较有效的方法，但是仍有不足之处：
- 远程监督的结果的训练样本常常有很多的噪声。
为了缓解噪声的影响，目前的技术都是：
- 选择一个最合适的句子
- 在一些句子中的实体对上计算soft attention权重
但是这些方法都不是最好的，False Positive 假正例误报（一个东西是错误，但是被标为正）。仍然是影响我们提高性能关键的问题。
我们认为这些打上错误label的候选句子必须通过hard decision硬性决策来处理，而不是soft attention 权重处理。
为此，我们提出了一个新的解决方法，使用深度强化学习策略来生成false-positive的indicator 指示器，通过这个指示器能够自动的识别出false-positive，不需要认为监督的信息就可以对每一种的关系进行处理。
和之前去除false-positive的操作不同的是，我们重新分配他们到negative样本中。
实验结果证明了我们通过这个策略可以提高性能（对比state of the art)

1 Introduction

关系抽取是信息抽取和自然语言理解中的一个非常重要的任务。关系抽取的目标是对于一个句子中的实体进行关系的预测。(Zelenko et al.,2003; Bunescu and Mooney, 2005; GuoDong et al., 2005).
例如给出一个例子：“Barack Obama is married to Michelle Obama”。关系的分类器就是要去预测"spouse"配偶的关系。
在下游的应用中，关系抽取是构建知识图谱的关键点，对于结构化查找，情感分析，QA系统和文本摘要来说，也是非常重要的。
在早起的关系抽取的发展阶段的时候的问题：
- 数据稀疏问题 data sparsity
  - 对于人工进行大型的数据库句子标注，从而得到可靠的labeled训练样本是及其昂贵的，而且几乎不可能这么做。
为了解决这个问题，人们提出了远程监督的方法。 (Mintz et al., 2009; Hoffmann et al., 2011;Surdeanu et al., 2012)
- 远程监督可以通过知识库中的实体对来从未标注的数据中选择一些噪声例子。
神经网络 (Zeng et al., 2014, 2015)，从噪声条件下，训练关系抽取器。
为了缓解噪声的影响(Roth et al., 2013)，又加入的attention机制 (Lin et al., 2016)，来定义soft weights到噪声句子上，然后选择样本。
作者：然而我们认为仅仅选择一个样本或者在soft attention weights的基础上做，是不够好的方法。
- 为了提高鲁棒性，我们需要一个系统的解决方案，能够使用更多的例子，能够移除false-positive然后将他们放到正确的地方。

本文优势

本文中，我们调查了使用动态选择策略用于鲁棒远程监督方法的可行性。我们设计了一个深度强化学习agent ，用于学习是否移除或者保留远程监督候选例子（基于关系分类的性能表现变化）。直觉上来说，我们的agent应该能够移除误报样本，重建一个干净的远程监督样本集合，从而能够最大化分类精确度的reward。
我们的方法是分类独立的，能够被用到任何一家存在的远程监督模型中。
经验上来说，我们的方法通过深层神经网络模型，得到了非常好的性能提升，数据集为（New York Times）
contribution：
- 1.我们提出了一个新型的深度强化学习框架用于鲁