论文浅尝 | 利用跨内和跨间信息的预训练实体关系编码器

本文介绍了如何利用跨内和跨间信息的预训练实体关系编码器,通过span编码器和span对编码器,结合三种预训练目标优化,提升实体关系抽取任务的效果,实现在ACE05和SciERC数据集上的优秀表现。
摘要由CSDN通过智能技术生成

笔记整理 | 朱珈徵,天津大学硕士


链接:https://www.aclweb.org/anthology/2020.emnlp-main.132.pdf


动机

从自由文本中提取实体和关系是自然语言处理中的一项重要任务。它的目标是识别具有特定类型(实体)和这些实体(关系)之间的语义关系的文本。本文主要研究联合实体关系的提取。在这篇文章中,作者将跨域相关资讯整合到预先训练好的编码器中,以执行实体关系抽取作业。并在预训练网络中引入了一个span编码器和一个span对编码器,使得跨内和跨间信息更容易导入预训练模型,而不是使用通用的句子编码器(如现有的通用预训练模型)。为了学习编码器,作者从不同的角度设计了三个定制的预训练目标,分别针对token、span和span对。特别地,训练span编码器以恢复span中令牌的随机洗牌,并且训练span对编码器以使用对比丢失来预测来自相同句子的正对和来自不同句子的负对。实验结果表明,该预训练方法优于远程监督预训练方法,在两个实体关系抽取基准数据集(ACE05,SciERC)上取得了良好的效果。


亮点

该工作的亮点主要包括:

(1)引入了一个跨距编码器和一个跨距对编码器,将跨距内和跨距间的信息整合到预训练网络结构中,这在通用的预训练模型中是被忽略的。

(2)设计了三种新的目标,标记边界目标、跨度排列目标和对比跨度对目标来学习更好的编码器。

(3)实验结果表明,该方法不仅在实体关系抽取任务上超过了BERT,而且在ACE05数据集上取得了显著的改进,与SciERC数据集上的最新成果相当


概念及模型

给定一个输入句子 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值