ERNIE:Enhanced Language Representation with Informative Entities阅读笔记


ERNIE主要是基于bert进行改造的,ERNIE这篇文章argue说之前的预训练模型还有不足之处,忽略了将知识信息整合到语言理解中,并采用了下图证明了可优化的地方
在这里插入图片描述

那如果想要将外部知识组合到语言表征模型中,我们就会遇到两大主要挑战

  • 结构化的知识编码:对给定的文本,如何高效地抽取并编码对应的知识图谱是非常重要的,这些知识图谱需要能直接用于语言模型
  • 异质信息融合:语言表征的预训练过程和知识表征的过程有很大不同,会产生两个独立的向量空间。因此,如何设计一个特殊的预训练目标,以融合词汇、句法和知识信息就显得非常重要。即两个独立空间如何合理融合问题。

模型结构

论文的模型结构如下所示
在这里插入图片描述
左边就是ERNIE的模型架构。右边是用于融合单词和实体信息的聚合器
整个模型架构由两个堆叠的模块组成

  • T-Encoder:负责获取文本的词法和句法信息
  • K-Encoder:负责整合进入文本对应的知识库知识

T-Encoder

T-Encoder就是一个传统的BERT,输入单词序列,输出同样个数的序列,只是每个序列是token/segment/position embedding的拼接表示。

K-Encoder

K-Encoder的输入输出都是单词序列及其对应实体序列的向量表示,单词表示就是T-Encoder的结果,实体表示则提前使用了TransE等知识表示模型进行初始化。

对于有实体映射的单词,对两个表示进行线性变换累加后得到隐层状态,再经过相应的变换得到新的文本和实体表示:
在这里插入图片描述
对于没有实体映射的单词,则直接进行线性变换:
在这里插入图片描述

ERNIE的预训练

一共三个任务,除了BERT的MLM与NSP任务,ERNIE添加了去噪的实体自编码器任务,也就是DEA(denoising entity auto-encoder)任务。
对于给定的单词-实体映射对
5%场景,把实体随机替换成另一个实体,让模型兼容映射错误的情况;
15%场景,把实体抠掉使对应词语没有映射,从而使得模型兼容不是实体的单词;
80%场景,保持原来的单词-实体映射。

ERNIE的微调

为了对齐不同类型输入的token,下图用了虚线矩形作为占位符,彩色矩形表示具体的标记token。
在这里插入图片描述
对于不同类型的NLP任务,ERNIE采用类似于BERT的微调过程,将第一个位置的最终输出用作特定任务的输入序列的表征。针对知识驱动型任务(比如关系分类和实体分类),可以设计出针对性的精调过程。

针对关系分类任务,最直接的方法是对给定实体相关的最终输出向量进行池化,把池化后的结果接全连接进行分类。
ERNIE分别为头部实体和尾部实体设计了不同的标记符来凸显实体mention,相当于传统关系分类模型中的position embedding。这样就可以直接用CLS来进行分类了。

而针对实体分类任务,ERNIE的微调过程其实就是关系分类任务的一种简化版本。之前的实体分类模型对上下文嵌入和实体mention都进行了充分利用,所以在这里,ERNIE通过使用实体标记符ENT来修改输入序列可以凸显出实体的信息、同时引导模型关注上下文信息与实体mention信息两者的结合。

实验

训练语料是Wikipedia(自由文本语料)+ Wikidata(知识库语料),使用TAGME来识别和对齐实体。
评测任务与数据集

  • 实体分类(FIGER数据集,113种实体类型,包含知识库中的细化实体类型;Open Entity,人工标注,共6种实体类型)
  • 关系分类(TACRED,共41个关系;FewRel,共80个关系)
  • 通用自然语言处理(GLUE,通用语言理解评估:包括情感分类、自然语言推断、问答对匹配、文本分类、语义相似度度量、复述检测等一系列任务,共8个数据集)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值