论文解读:《Enriching Pre-trained Language Model with Entity Information for Relation Classification》R_BER

一、摘要(原文Abstract翻译)

关系分类是一个重要的NLP任务,其主要目标是提取出实体之间的关系。最先进的关系分类方法主要是基于CNN或RNN。最近,预训练BERT模型在许多NLP的分类和序列标注任务中都获得了非常好的结果。关系分类不同于其他NLP任务的主要原因是它既依赖于句子的信息,又依赖于两个目标实体的信息。在本文中,我们提出了一个用来解决关系分类任务的模型,它既利用了预训练的BERT语言模型,又结合来自目标实体的信息。我们定位目标实体并通过预训练结构传递信息,同时还结合了两个实体的相关编码。在SemEval-2010 Task 8任务上,相比目前的最优模型我们的方法获得了有效的提升。

二、信息速览

  1. 模型名称:R-BERT
  2. 论文地址:https://arxiv.org/pdf/1905.08284.pdf
  3. 应用领域:NLP,实体关系抽取
  4. 主要内容:利用BERT模型的输出部分构建关系分类模型R-BERT,并在SemEval-2010 Task 8数据集上获得当时的最好结果
  5. 主要贡献:提出了可以通过在实体前后加标识符得方式表明实体位置, 代替传统位置向量的做法,率先将 BERT 用在了关系抽取任务上, 探索了实体和实体位置在预训练模型中的结合方式

三、算法详解

3.1 核心步骤
  • 为了使BERT模型能够定位两个实体的位置,我们在每个句子的开头添加 "[CLS]" ,在第一个实体前后添加特殊字符 "$" ,在第二个实体前后添加特殊字符"#"
  • BERT会输出三部分最终隐含状态向量(final hidden state vectors),分别是[CLS]最终隐含状态向量以及两个实体的隐含状态向量。三个输出经过一定处理后拼接在一起。
  • 最后利用BERT输出的[CLS]最终隐含状态向量(final hidden state vectors)和两个目标实体的最终隐含状态向量进行关系分类
3.2 分类模型

R-BERT的预训练完全采用BERT模型,输入句子为单句,因此不需要添加[SEP]。其输出分为三部分,分别是[CLS]隐含状态向量和两个实体的隐含状态向量。作者认为第一部分可以保存句子的语义内容,后两个部分可以保存两个实体的信息。

(1) [CLS]隐含状态向量:该部分为单一向量,直接送入前馈神经网络中。其公式为:
CLS

(2) 实体信息:对两个实体信息采取相同的操作,分别将实体的每个向量进行平均和之后,送入前馈神经网络中,公式为:
Entity

其中,i ,j分别为第一个实体的首、尾字符位置;k,m分别为第二个实体的首、尾字符位置。神经网络中,权重系数和偏置系数均共享,即 W0 = W1 = W2,b0 = b1 = b2。

(3)分类:三个部分进行拼接并送入全连接层中,最后通过softmax进行分类。
Model

四、实验结果及分析

4.1 采用的数据集:SemEval-2010 Task 8 dataset

该数据集包含9类语义关系和一个Other类别,规定某关系如果不属于9类语义关系中的一种,则其属于Other类别。9类关系分别是:Cause-Effect、Component-Whole、Content-Container、Entity-Destination、Entity-Origin、Instrument-Angency、Member-Collection、Message-Topic和Product-Producer。数据集中共有10717个句子,8000个句子为训练集,2717个句子为测试集,每个句子包含e1和e2两个名词以及与该句子相关的关系类型。需要注意的是,关系是有向的,即关系(e1, e2)和关系(e2, e1)不同。

4.2 模型的参数设置:
Parameters
4.3 R-BERT与其他方法的比较

作者还在相同的数据集上比较了其他多种模型,其中包括:SVM、RNN、MVRNN、CNN+Softmax、FCM、CR-CNN、Attention CNN、Att-Pooling-CNN和Entity Attention Bi-LSTM,以F1值作为评测标准,其结果如下:


Comparison

可见,R-BERT的F1值达到了89.25,相比于其他方法有着明显的优势。

五、扩展研究

为了探究BERT模型之外的部分对最后识别结果的影响,作者分别进行了如下额外实验,并得到结论:
(1)去除了实体前后的标识符,这种做法会使模型的F1值从89.25%降到87.98%,说明了标识符可以帮助提供实体信息。
(2)在BERT输出层仅使用[CLS]句子向量而不利用实体向量,这样会使得模型F1值从89.25%降到87.99%,说明主动明确实体信息对模型是有帮助的。

六、启发

想办法给模型明确实体的位置对于关系抽取问题精度的提升是有帮助的。

参考:

https://zhuanlan.zhihu.com/p/78445887
https://blog.csdn.net/qq_36426650/article/details/96629835

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值