ERNIE：Enhanced Language Representation with Informative Entities阅读笔记

最新推荐文章于 2024-01-16 22:12:45 发布

Nstar-LDS

最新推荐文章于 2024-01-16 22:12:45 发布

阅读量306

点赞数

分类专栏： NLPer阅读笔记文章标签：自然语言处理机器学习深度学习

本文链接：https://blog.csdn.net/nstarLDS/article/details/105584978

版权

NLPer阅读笔记专栏收录该内容

17 篇文章 1 订阅

订阅专栏

文章目录

模型结构
- T-Encoder
- K-Encoder
ERNIE的预训练
ERNIE的微调
实验

ERNIE主要是基于bert进行改造的，ERNIE这篇文章argue说之前的预训练模型还有不足之处，忽略了将知识信息整合到语言理解中，并采用了下图证明了可优化的地方
在这里插入图片描述

那如果想要将外部知识组合到语言表征模型中，我们就会遇到两大主要挑战

结构化的知识编码：对给定的文本，如何高效地抽取并编码对应的知识图谱是非常重要的，这些知识图谱需要能直接用于语言模型
异质信息融合：语言表征的预训练过程和知识表征的过程有很大不同，会产生两个独立的向量空间。因此，如何设计一个特殊的预训练目标，以融合词汇、句法和知识信息就显得非常重要。即两个独立空间如何合理融合问题。

模型结构

论文的模型结构如下所示
在这里插入图片描述
左边就是ERNIE的模型架构。右边是用于融合单词和实体信息的聚合器。
整个模型架构由两个堆叠的模块组成

T-Encoder：负责获取文本的词法和句法信息
K-Encoder：负责整合进入文本对应的知识库知识

T-Encoder

T-Encoder就是一个传统的BERT，输入单词序列，输出同样个数的序列，只是每个序列是token/segment/position embedding的拼接表示。

K-Encoder

K-Encoder的输入输出都是单词序列及其对应实体序列的向量表示，单词表示就是T-Encoder的结果，实体表示则提前使用了TransE等知识表示模型进行初始化。

对于有实体映射的单词，对两个表示进行线性变换累加后得到隐层状态，再经过相应的变换得到新的文本和实体表示：
在这里插入图片描述
对于没有实体映射的单词，则直接进行线性变换：

ERNIE的预训练

一共三个任务，除了BERT的MLM与NSP任务，ERNIE添加了去噪的实体自编码器任务，也就是DEA（denoising entity auto-encoder）任务。
对于给定的单词-实体映射对
5%场景，把实体随机替换成另一个实体，让模型兼容映射错误的情况；
15%场景，把实体抠掉使对应词语没有映射，从而使得模型兼容不是实体的单词；
80%场景，保持原来的单词-实体映射。

ERNIE的微调

为了对齐不同类型输入的token，下图用了虚线矩形作为占位符，彩色矩形表示具体的标记token。
在这里插入图片描述
对于不同类型的NLP任务，ERNIE采用类似于BERT的微调过程，将第一个位置的最终输出用作特定任务的输入序列的表征。针对知识驱动型任务（比如关系分类和实体分类），可以设计出针对性的精调过程。