论文笔记--ERNIE: Enhanced Language Representation with Informative Entities-CSDN博客

本文链接：https://blog.csdn.net/weixin_38124427/article/details/131846067

ERNIE是一种预训练模型，通过融合外部知识到语言表示中，特别是在实体上，提升了知识驱动的NLP任务性能。模型包括T-Encoder和K-Encoder，后者利用知识图谱信息，并通过dEA任务进行预训练。实验显示ERNIE在实体抽取和关系分类等任务上表现出色。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文笔记--ERNIE: Enhanced Language Representation with Informative Entities

1. 文章简介
2. 文章概括
3 文章重点技术
4. 文章亮点
5. 原文传送门
6. References

1. 文章简介

标题：ERNIE: Enhanced Language Representation with Informative Entities
作者：Zhengyan Zhang, Xu Han, Zhiyuan Liu, Xin Jiang, Maosong Sun, Qun Liu
日期：2019
期刊：ACL

2. 文章概括

文章提出了ERNIE(Enhanced Language Representation with Informative Entities)，一种可以将外部知识融合进入预训练模型的方法。数值实验表明，ERNIE可以提升一些知识驱动的下游任务的表现，且在其它NLP任务上效果基本持平SOTA。

3 文章重点技术

3.1 模型框架

给定token序列 $\{w_1, \dots, w_n\}$ ，其中 $n$ 为序列长度，令 $\{e_1, \dots, e_m\}$ 表示对应的实体序列，其中 $m$ 为实体数。一般来说 $m < n$ ，这是因为不是每个token都可以映射为知识图谱(KG)中的实体(entity)，且一个实体可能对应多个token，比如"bob dylan"两个token对应一个实体"Bob Dylan"。记所有token的词表为 $\mathcal{V}$ ，KG中所有实体的集合为 $\mathcal{E}$ 。如果对 $v\in\mathcal{V}$ ，存在与其对应的实体 $e\in\mathcal{E}$ ，则我们用 $f (v) = e$ 表示这种对齐关系。特别地，针对上述多个token对应单个实体的情况，我们将实体对齐给第一个token，例如句子中出现"bob dylan…"时， $f(\text{"bob"}) = \text{"Bob Dylan"}$ 。
如下图所示，ERNIE的整体框架分为两部分：1) T-Encoder(Textual encoder)，用于捕捉基本的词义和句法信息；2) K-Encoder(Knowledgeable encoder)，用于将外部知识融合进入模型。记T-Encoder的层数为 $N$ ，K-Encoder的层数为 $M$ 。

具体来说，给定输入序列 $\{w_1, \dots, w_n\}$ 和对应的实体序列 $\{e_1, \dots, e_m\}$ ，T-encoder层首先将token序列、segment序列和位置序列输入得到词汇和句法层面的特征 $\{\bold{w}_1, \dots, \bold{w}_n\} = \text{T-Encoder}(\{w_1, \dots, w_n\})$ ，其中T-Encoder结构和BERT[1]相同，基本架构为Transformer的Encoder层。
然后将上述特征传入到K-Encoder层。K-Encoder还会接受外部知识信息，首先我们会通过TransE生成 $\{e_1, \dots, e_m\}$