【文献阅读笔记】04-重标记噪声：多智能体协作的实体关系联合抽取

最新推荐文章于 2022-09-29 11:02:22 发布

小刘今天好好学习了吗

最新推荐文章于 2022-09-29 11:02:22 发布

阅读量1.1k

点赞数

分类专栏：文献阅读文章标签：自然语言处理 nlp 知识图谱深度学习人工智能

本文链接：https://blog.csdn.net/weixin_38476851/article/details/109296775

版权

【文献阅读笔记】04-重标记噪声：多智能体协作的实体关系联合抽取-ACL 2020：Relabel the Noise: Joint Extraction of Entities and Relations via Cooperative Multiagents

1 Introduction
- 1.1 实体关系联合抽取
- 1.2 文章工作
2 MRL
3 实验
- 3.1 实验结果
- 3.2 消融实验
4 结论

1 Introduction

1.1 实体关系联合抽取

实体关系抽取任务：提取具有语义关系的实体对，即三元组；是信息提取的中心任务，需要从非结构化文本自动构建知识。
在这里插入图片描述
实体关系抽取目前两种常见解决方案

Pipeline：早期的信息抽取将实体抽取和关系抽取看作两个独立的任务，这样的串联模型在建模上相对更简单。但这样将实体识别和关系抽取当作两个独立的任务会导致一些问题：比如误差积累、实体冗余、关系重叠问题等等。

联合抽取：对实体抽取和关系分类联合建模，能够利用实体和关系之间的交互信息，同时抽取实体并分类实体对的关系，可以很好地解决流水线方法所存在的问题。
目前的抽取思路：通常是先提取实体对-然后-再对关系进行分类或采用统一标注的方式来解决实体关系抽取问题。

有监督：给定人工标注的数据集对模型进行训练
限制：获得高质量人工标注的成本过高

远监督：通过将知识库中的三元组和自由文本进行对齐，从而自动生成训练数据。不需要手动标注实体和关系。
限制：样本噪声问题

1.2 文章工作

文章提出新方法解决实体关系抽取问题中的噪声问题：

1. shifted label distribution: 由带噪声标签的训练集与人工标注的测试集之间的不一致引起的
噪声：False Positive 、False Negative
流水线方法（entity-then-relation）加剧了噪声传播

2. 提出了一种联合抽取方法
采用强化学习方法：通过使用各个协作的多代理对噪声实例进行重新标记;
每个代理通过自己的角度计算连续的放置信度分数对实例进行评估；
设计了一个放置信度共识模块，将带有放置信度评分标签的噪声训练集重新进行分配；
使用调整后的标签重组地重新训练提取器（置信度用于调整提取器的训练损失）。

3.在Wiki-KBP，BioInfer两个数据集上的进行了实验
结果证明了对噪声实例进行重标记的作用，文章提出的模型获得了最佳水平。