ERNIE: Enhanced Language Representation with Informative Entities

最新推荐文章于 2024-01-16 22:12:45 发布

百川AI

最新推荐文章于 2024-01-16 22:12:45 发布

阅读量2.4k

点赞数 2

分类专栏： DeepLearning NLP Bert原理和应用文章标签： ERNIE BERT TransE informative entities

本文链接：https://blog.csdn.net/shine19930820/article/details/91478037

版权

DeepLearning 同时被 3 个专栏收录

41 篇文章 6 订阅

订阅专栏

NLP

24 篇文章 1 订阅

订阅专栏

Bert原理和应用

7 篇文章 4 订阅

订阅专栏

ERNIE: Enhanced Language Representation with Informative Entities

当前的预训练语言模型中没有融入KGs信息。而KGs能够为语言理解提供丰富的结构化信息。因此本文提出一种基于大规模语料和KGs训练的增强语言模型ERNIE。实验证明在knowledge-driven任务上，相比于bert取得显著提升。

bert融合上下文，ernie融合上下文和其对应知识库信息。

例如：周杰伦， bert输出只有语义上的信息。

而本文观点是：不仅有语义信息，还要融入KGs信息，例如周杰伦是歌手的信息。

再例如：Bob Dylan 同时是歌曲作家和书籍作者，语义模型很难学出。

knowledge-driven task: entity typing、Relation Classification

什么是结构化的知识信息？

结构化信息：图结构，包含node（实体）、边（实体间关系），如何embedding图结构呢？本文使用TransE，见下文。
如果没有Blowin’ in the Wind=song, Chronicles=book，entity typing很难推断出bob dylan是songwriter、writer。

问题：

Structured Knowledge Encod-ing：怎么将KG信息编码。
Heterogeneous Information Fusion：怎么融合词汇、句法和知识信息。

模型结构：
在这里插入图片描述

$\left\{w_{1}, \ldots, w_{n}\right\}=\text {T-Encoder }\left(\left\{w_{1}, \ldots, w_{n}\right\}\right)$

$\left\{w_{1}^{o}, \ldots, w_{n}^{o}\right\},\left\{e_{1}^{o}, \ldots, e_{n}^{o}\right\}=\text {K-Encoder }(\left\{w_{1}, \ldots, w_{n}\right\},\left\{e_{1}, \dots, e_{m}\right\} )$

Textual-Encoder

是一个多层的双向Transformer encoder，输入每个词语 $\{w_{1}, \dots, w_{n}\}$ 的token embedding, segment embedding, positional embedding求和。
在这里插入图片描述

“segment embedding”的概念来区分句子。对于句对来说，就用embedding A和embedding B来分别代表左句子和右句子，例如左句都是1，右句都是0；而单个句子来说，就只有embedding A。

Knowledgeable Encoder

输入各个实体 ${e_{1}, ..., e_{n}\}$ ，通过预训练TransE将实体转化为embedding向量。
TransE伪代码，还是比较容易懂。
目标： f(“Bob Dylan”) + f(“is_a”) = f(“Songwriter”)
其中：h = Bob Dylan, l = is_a, t = Songwriter。同时也要引入负样本，非l两边的节点加入作为h’, t’。（h’, l, t’）构成负样本。
在这里插入图片描述

$S_{(h, \ell, t)}^{\prime}=\left\{\left(h^{\prime}, \ell, t\right) | h^{\prime} \in E\right\} \cup\left\{\left(h, \ell, t^{\prime}\right) | t^{\prime} \in E\right\}$

实体和token的embedding通过多头的attention:
$\{\tilde{w}_{1}^{(i)}, \ldots, \tilde{w}_{n}^{(i)}\}=\mathrm{MH}-\mathrm{ATT}(\{\boldsymbol{w}_{1}^{(i-1)}, \ldots, \boldsymbol{w}_{n}^{(i-1)}\}$

$\{\tilde{e}_{1}^{(i)}, \ldots, \tilde{e}_{m}^{(i)}\}=\mathrm{MH}-\mathrm{ATT}(\{e_{1}^{(i-1)}, \ldots, e_{m}^{(i-1)}\}$

i-th information fusion layer:

对于包含实体信息的tokens：
$\begin{aligned} \boldsymbol{h}_{j} &=\sigma\left(\tilde{\boldsymbol{W}}_{t}^{(i)} \tilde{\boldsymbol{w}}_{j}^{(i)}+\tilde{\boldsymbol{W}}_{e}^{(i)} \tilde{\boldsymbol{e}}_{k}^{(i)}+\tilde{\boldsymbol{b}}^{(i)}\right) \\ \boldsymbol{w}_{j}^{(i)} &=\sigma\left(\boldsymbol{W}_{t}^{(i)} \boldsymbol{h}_{j}+\boldsymbol{b}_{t}^{(i)}\right) \\ e_{k}^{(i)} &=\sigma\left(\boldsymbol{W}_{e}^{(i)} \boldsymbol{h}_{j}+\boldsymbol{b}_{e}^{(i)}\right) \end{aligned}$
未包含token的实体：
$h_{j}=\sigma\left(\tilde{\boldsymbol{W}}_{t}^{(i)} \tilde{\boldsymbol{w}}_{j}^{(i)}+\tilde{\boldsymbol{b}}^{(i)}\right) \\ \boldsymbol{w}_{j}^{(i)}=\sigma\left(\boldsymbol{W}_{t}^{(i)} \boldsymbol{h}_{j}+\boldsymbol{b}_{t}^{(i)}\right)$
输出w, e怎么使用？

Pre-training for Injecting Knowledge

为了将KGs信息表达，提出了新一个预训练任务。

对于句子，随机掩盖token-entity的entity，让模型来预测，搜索空间是句子中所有出现过的entites，即
$p\left(e_{j} | w_{i}\right)=\frac{\exp \left(1 \mathrm{i} \operatorname{near}\left(\boldsymbol{w}_{i}^{o}\right) \cdot \boldsymbol{e}_{j}\right)}{\sum_{k=1}^{m} \exp \left(1 \text { i near }\left(\boldsymbol{w}_{i}^{o}\right) \cdot e_{k}\right)}$
损失函数使用交叉熵。