原文链接:https://openreview.net/pdf?id=BJgrxbqp67
本文工作:
- 使用基于Transformer的关系抽取模型(TRE),依赖于深层语言表征(deep language representation)而非语法特征。
- 首次证明预训练语言表征在关系抽取任务中的重要性。
- 通过ablation studies证明训练语言表征避免过拟合且具有较好的泛化性能;证明与基线方法相比样本效率有显著提高。
- 源码 https://github.com/DFKI-NLP/TRE
1.介绍
- 关系抽取应用:信息抽取、知识图谱、问答
- 基于语法特征的关系抽取:基于前缀核形态学特征、POS句法特征、命名实体标记即WordNet上义词、基于图卷积的词法依赖特征。
- 深层语言表征是一种有效的非监督的预训练形式,包含上下文特征,能够捕获语言学特征,微调的预训练在下游任务中有非常出色的表现。
- Transformer的自注意力结构能够捕获长距离依赖。
2.TRE
大体上基于https://blog.csdn.net/qq_27717921/article/details/99670843方法,本文模型框架如图1.
3.实验设置
3.1数据集
- TACRED:关注named entities;语句标注基于人和组织的关系类型;实体提及是类型化的,主体分为人或机构,客体分为16种。
- SemEval 2010:关注两个概念之间的关系;语句标注是一对未类型化的名词,9种句法关系(Cause-Effect,Entity-Origin)和一种其他不明确的其他关系类型。
3.2预训练
重用上述链接中的语言模型。
重用模型的BPE词表,拓展特殊字符(start,end,delimiter tokens).
使用位置嵌入,支持最长512 tokens。
3.3实体掩码
能够考察提供有限信息时模型表现;能够避免过拟合,更好地泛化未见实体;分析实体类型和角色特征对模型的影响。
- UNK:用 unknown token 替换所有实体提及。
- NE:用其命名实体类型替换所有实体提及。
- GR:用语法角色(主体/客体)替换所有实体提及。
- NE+ER
3.4 超参数和最优化
Adam optimization(
β
1
\beta_1
β1=0.9,
β
2
\beta_2
β2=0.999),
batch_size=8,
20%linear learning ratedecay,
残差和分类器dropout 0.1,
超参数如图.
4.结果
4.1 TACRED
4.2 SemEval
5.分析和对比实验
5.1预训练效果
结论:
- (75.6–>85.6/43.3–>63.3)单词预训练对模型效果有明显提升;
- 未使用掩码比使用掩码模型提升更大,说明单词预训练有正则化效果,避免过拟合,且上下文特征使模型更好地适应复杂实体;
- 随机初始化单词表示且不使用BPE时,出现使用掩码模型更好,说明可能出现过拟合现象(55.3)
5.2单词表示捕获到哪些信息?
从table7中,单词预训练模型63.3,而随机初始化+(NE+GR)仍能达到这一水平,说明单词预训练捕获了实体类型信息和语法角色信息。
5.3实体掩码效果
结论:
- (51.0–>56.1)这表明语义角色类型是一个非常有用的特性,或者它的重要性在于它提供了关于每个参数实体在输入语句中的位置的可靠信息。;
- 使用NE时有更大的性能提升,若加上GR的信息,召回率有所提升,准确率变化不大。
5.4采样效率
7.结论
- 提出了一种基于Transformer的关系抽取方法TRE,它用预先训练的语言表示中捕获的隐式特征代替了以往方法所要求的显式语言特征。
- 模型在两个关系抽取数据集TACRED和semeval2010 task8上的性能优于现有的技术水平。
- 预先训练过的语言表征可以显著提高我们方法的样本效率。在我们的实验中,我们观察了语言表征来捕捉对关系抽取任务非常有用的特征。
- 未来重要的工作是进一步研究TRE所捕捉到的语言特征。一个有趣的问题是,与依赖分析提供的信息相比,语言表示中捕获的句法结构的程度。此外,我们的通用体系结构使我们能够集成有关实体的附加上下文信息和背景知识,这些信息可用于进一步提高性能。
论文主要方法是使用GPT实现关系分类,并没有提出新的网络结构或模型。并且模型介绍也非常粗糙,没有讲明白训练的两部分。
实验分析写得很细致,在论证预训练单词表示所捕获的信息,但是又有一些奇怪的对比,比如5.2,在在同一水平就表示捕获了相同的信息吗?
作为初学者,并不知道GPT模型,所以我还是看完了。