论文总结 | Improving Relation Extraction by Pre-trained Language Representations

原文链接:https://openreview.net/pdf?id=BJgrxbqp67

本文工作:

  • 使用基于Transformer的关系抽取模型(TRE),依赖于深层语言表征(deep language representation)而非语法特征。
  • 首次证明预训练语言表征在关系抽取任务中的重要性。
  • 通过ablation studies证明训练语言表征避免过拟合且具有较好的泛化性能;证明与基线方法相比样本效率有显著提高。
  • 源码 https://github.com/DFKI-NLP/TRE

1.介绍

  • 关系抽取应用:信息抽取、知识图谱、问答
  • 基于语法特征的关系抽取:基于前缀核形态学特征、POS句法特征、命名实体标记即WordNet上义词、基于图卷积的词法依赖特征。
  • 深层语言表征是一种有效的非监督的预训练形式,包含上下文特征,能够捕获语言学特征,微调的预训练在下游任务中有非常出色的表现。
  • Transformer的自注意力结构能够捕获长距离依赖。

2.TRE

大体上基于https://blog.csdn.net/qq_27717921/article/details/99670843方法,本文模型框架如图1.
在这里插入图片描述

3.实验设置

3.1数据集

在这里插入图片描述

  • TACRED:关注named entities;语句标注基于人和组织的关系类型;实体提及是类型化的,主体分为人或机构,客体分为16种。
  • SemEval 2010:关注两个概念之间的关系;语句标注是一对未类型化的名词,9种句法关系(Cause-Effect,Entity-Origin)和一种其他不明确的其他关系类型。
3.2预训练

重用上述链接中的语言模型。
重用模型的BPE词表,拓展特殊字符(start,end,delimiter tokens).
使用位置嵌入,支持最长512 tokens。

3.3实体掩码

能够考察提供有限信息时模型表现;能够避免过拟合,更好地泛化未见实体;分析实体类型和角色特征对模型的影响。

  • UNK:用 unknown token 替换所有实体提及。
  • NE:用其命名实体类型替换所有实体提及。
  • GR:用语法角色(主体/客体)替换所有实体提及。
  • NE+ER
3.4 超参数和最优化

Adam optimization( β 1 \beta_1 β1=0.9, β 2 \beta_2 β2=0.999),
batch_size=8,
20%linear learning ratedecay,
残差和分类器dropout 0.1,
超参数如图.
超参数

4.结果

4.1 TACRED

在这里插入图片描述

4.2 SemEval

在这里插入图片描述

5.分析和对比实验

5.1预训练效果

在这里插入图片描述
结论:

  • (75.6–>85.6/43.3–>63.3)单词预训练对模型效果有明显提升;
  • 未使用掩码比使用掩码模型提升更大,说明单词预训练有正则化效果,避免过拟合,且上下文特征使模型更好地适应复杂实体;
  • 随机初始化单词表示且不使用BPE时,出现使用掩码模型更好,说明可能出现过拟合现象(55.3)
5.2单词表示捕获到哪些信息?

从table7中,单词预训练模型63.3,而随机初始化+(NE+GR)仍能达到这一水平,说明单词预训练捕获了实体类型信息和语法角色信息。

5.3实体掩码效果

在这里插入图片描述
结论:

  • (51.0–>56.1)这表明语义角色类型是一个非常有用的特性,或者它的重要性在于它提供了关于每个参数实体在输入语句中的位置的可靠信息。;
  • 使用NE时有更大的性能提升,若加上GR的信息,召回率有所提升,准确率变化不大。
5.4采样效率

在这里插入图片描述

7.结论

  • 提出了一种基于Transformer的关系抽取方法TRE,它用预先训练的语言表示中捕获的隐式特征代替了以往方法所要求的显式语言特征。
  • 模型在两个关系抽取数据集TACRED和semeval2010 task8上的性能优于现有的技术水平。
  • 预先训练过的语言表征可以显著提高我们方法的样本效率。在我们的实验中,我们观察了语言表征来捕捉对关系抽取任务非常有用的特征。
  • 未来重要的工作是进一步研究TRE所捕捉到的语言特征。一个有趣的问题是,与依赖分析提供的信息相比,语言表示中捕获的句法结构的程度。此外,我们的通用体系结构使我们能够集成有关实体的附加上下文信息和背景知识,这些信息可用于进一步提高性能。

论文主要方法是使用GPT实现关系分类,并没有提出新的网络结构或模型。并且模型介绍也非常粗糙,没有讲明白训练的两部分。

实验分析写得很细致,在论证预训练单词表示所捕获的信息,但是又有一些奇怪的对比,比如5.2,在在同一水平就表示捕获了相同的信息吗?

作为初学者,并不知道GPT模型,所以我还是看完了。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值