经典论文复现 | 基于标注策略的实体和关系联合抽取

最新推荐文章于 2024-07-05 14:21:21 发布

PaperWeekly

最新推荐文章于 2024-07-05 14:21:21 发布

阅读量2.2k

点赞数

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/84452888

版权

本文复现了ACL 2017上的一篇论文，该论文提出了一种新的标注策略和端到端模型，用于联合抽取实体和关系。实验表明，这种方法在信息抽取任务中表现出色，特别是在精确率和召回率之间取得了良好平衡。通过使用PaddlePaddle进行复现，作者强调了该框架在构建模型和运行速度上的优势，但也指出了一些需要改进的地方。

摘要由CSDN通过智能技术生成

640

过去几年发表于各大 AI 顶会论文提出的 400 多种算法中，公开算法代码的仅占 6%，其中三分之一的论文作者分享了测试数据，约 54% 的分享包含“伪代码”。这是今年 AAAI 会议上一个严峻的报告。人工智能这个蓬勃发展的领域正面临着实验重现的危机，就像实验重现问题过去十年来一直困扰着心理学、医学以及其他领域一样。最根本的问题是研究人员通常不共享他们的源代码。

可验证的知识是科学的基础，它事关理解。随着人工智能领域的发展，打破不可复现性将是必要的。为此，PaperWeekly 联手百度 PaddlePaddle 共同发起了本次论文有奖复现，我们希望和来自学界、工业界的研究者一起接力，为 AI 行业带来良性循环。

作者丨戴一鸣

学校丨清华海峡研究院

研究方向丨自然语言处理

引言

笔者本次复现的是中科院自动化所发表于 ACL 2017 的经典文章——Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme。

640

对于实体和关系的联合抽取一直是信息抽取中重要的任务。为了解决这一问题，论文提出了一个新型的标注方式，可以解决联合信息抽取中的标注问题。随后，基于这一标注方法，论文研究了不同的端到端模型，在不需要分开识别实体和关系的同时，直接抽取实体和实体之间的关系。

论文在使用了远程监督制作的公开数据集上进行了实验，结果说明这一标注策略较现有的管道和联合学习方法。此外，论文所提出的端到端模型在公开数据集上取得了目前最好的效果。

论文复现代码：

http://aistudio.baidu.com/aistudio/#/projectdetail/26338

论文方法

论文提出了一个新型的标注方式，并设计了一个带有偏置（Bias）目标函数的端到端模型，去联合抽取实体和实体间的关系。

标注方式

图 1 是一个如何将原始标注数据（实体+实体关系）转换为论文中提到的新型标注方式的示例。在数据中，每一个词汇会被赋予一个实体标签，因此通过抽取和实体有关的词语，构成实体。

640

▲ 图1. 一个构成实体和关系的数据实例

第一个标签是“O”，表示这个词属于“Other”标签，词语不在被抽取结果中。除了标签“O”以外，其他标签都由三部分组成：1）词语在实体中的位置，2）实体关系类型，3）关系角色。

论文使用“BIES”规则（B：实体起始，I：实体内部，E：实体结束，S：单一实体）去标注词语在实体中的位置信息。对于实体关系类型，则通过预先定义的关系集合确定。对于关系角色，论文使用“1”和“2”确定。一个被抽取的实体关系结果由一个三元组表示（实体 1-关系类型-实体 2）。“1”表示这个词语属于第一个实体，“2”则表示这个词语属于第二个实体。因此，标签总数是：Nt = 2*4 *|R|+1。R 是预先定义好的关系类型的数量。

从图 1 可以看出，输入的句子包含两个三元组：

{United States, Country-President, Trump}

{Apple Inc, Company-Founder, Steven Paul Jobs}

预先定义的两组关系是：

Country-President: CP

Company-Founder：CF

由于“United”，“States”，“ Trump”，“Apple”，“Inc” ，“Steven”， “Paul”， “Jobs”构成了描述实体的词汇，因此这些词语都被赋予了特定的标记。

例如，“United”是实体“United States”的第一个词语，同时也和“Country-President”关联，因此“United”词语的标注是“B-CP-1”。“B”表示Begin，“CP”表示Country President，“1”表示“United”词语所在的实体“United States”是三元组中的第一个对象。

同理，因为“States”是“United States”实体的结尾词语，但依然属于“Country President”关系，同时也是三元组的第一个对象，因此“States”的标注是“E-CP-1”。

对于另一个词语“Trump”，它是构成“Trump”这一实体的唯一词语，因此使用“S”。同时，Trump 实体属于“Country President”关系，因此它具有CP标签，又同时这一实体在三元组中是第二个对象，因此它被标注“2”。综上，“Trump”这一词语的标注是：“S-CP-2”。除了这些和实体有关的词语外，无关词语被标注“O”。

当然，对于拥有两个和两个以上实体的句子，论文将每两个实体构成一个三元组，并使用最小距离原则（距离最近的两个实体构成一对关系）。在图 1 中，“United States”和“Trump”因为最小距离构成了一对实体。此外，论文只探讨一对一关系三元组。

端到端模型

双向长短时编码层（Bi-LSTM Encoder Layer）

在序列标注问题中，双向长短时编码器体现了对单个词语的语义信息的良好捕捉。这一编码器有一个前向和后向的长短时层，并在末尾将两层合并。词嵌入层则将词语的独热编码（1-hot representation）转换为词嵌入的向量。

640

▲ 公式1. 双向长短时编码器

公式 1 中的 i，f 和 o 分别为 LSTM 模块在 t 时刻的输入门，遗忘门和输出门。c 为 LSTM 模块的输出，W 为权重。对于当前时刻，其隐层向量 640 的结果取决于起义时刻的 640 ，上一时刻的 640 ，以及当前时刻的输入词语 640 。

对于一句话，表示为 640 。其中 640 是第 d 维度下在第 t 个词汇的词向量，n 则是句序列的长度。在经过了词嵌入后，前向和后向的长短时神经网络分布接受数据输入，前向则句子顺序从前向后，后向则从后向前。

对于每一个词语向量（经过词嵌入后） 640 ，前向长短时神经网络层通过考虑语义信息，将

最低0.47元/天解锁文章

PaperWeekly

关注

0
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
经典论文复现 | 基于标注策略的实体和关系联合抽取

过去几年发表于各大 AI 顶会论文提出的 400 多种算法中，公开算法代码的仅占 6%，其中三分之一的论文作者分享了测试数据，约 54% 的分享包含“伪代码”。这是今年 ...
复制链接

扫一扫