笔记整理 | 朱珈徵,天津大学硕士
链接:https://www.aclweb.org/anthology/2020.emnlp-main.132.pdf
动机
从自由文本中提取实体和关系是自然语言处理中的一项重要任务。它的目标是识别具有特定类型(实体)和这些实体(关系)之间的语义关系的文本。本文主要研究联合实体关系的提取。在这篇文章中,作者将跨域相关资讯整合到预先训练好的编码器中,以执行实体关系抽取作业。并在预训练网络中引入了一个span编码器和一个span对编码器,使得跨内和跨间信息更容易导入预训练模型,而不是使用通用的句子编码器(如现有的通用预训练模型)。为了学习编码器,作者从不同的角度设计了三个定制的预训练目标,分别针对token、span和span对。特别地,训练span编码器以恢复span中令牌的随机洗牌,并且训练span对编码器以使用对比丢失来预测来自相同句子的正对和来自不同句子的负对。实验结果表明,该预训练方法优于远程监督预训练方法,在两个实体关系抽取基准数据集(ACE05,SciERC)上取得了良好的效果。
亮点
该工作的亮点主要包括:
(1)引入了一个跨距编码器和一个跨距对编码器,将跨距内和跨距间的信息整合到预训练网络结构中,这在通用的预训练模型中是被忽略的。
(2)设计了三种新的目标,标记边界目标、跨度排列目标和对比跨度对目标来学习更好的编码器。
(3)实验结果表明,该方法不仅在实体关系抽取任务上超过了BERT,而且在ACE05数据集上取得了显著的改进,与SciERC数据集上的最新成果相当
概念及模型
给定一个输入句子