bert简介_ELMO，BERT和GPT简介

最新推荐文章于 2024-09-07 14:43:21 发布

akun 75

最新推荐文章于 2024-09-07 14:43:21 发布

阅读量401

点赞数

文章标签： bert简介

本文链接：https://blog.csdn.net/weixin_42498487/article/details/113891725

版权

Contextualized Word Embedding

同样的单词有不同的意思，比如下面的几个句子，同样有 “bank” ，却有着不同的意思。但是用训练出来的 Word2Vec 得到 “bank” 的向量会是一样的。向量一样说明 “word” 的意思是一样的，事实上并不是如此。这是 Word2Vec 的缺陷。

下面的句子中，同样是“bank”，确是不同的 token，只是有同样的 type

我们期望每一个 word token 都有一个 embedding。每个 word token 的 embedding 依赖于它的上下文。这种方法叫做 Contextualized Word Embedding。

EMLO

EMLO 是 Embeddings from Language Model 的缩写，它是一个 RNN-based 的模型，只需要有大量句子就可以训练。

我们可以把训练的 RNN 隐藏层的权重拿出来，把词汇经过隐藏层后输出的向量当做这个单词的 embedding，因为 RNN 是考虑上下文的，所以同一个单词在不同的上下文中它会得到不同的向量。上面是一个正向里的 RNN，如果觉得考虑到的信息不够，可以训练双向 RNN ，同样将隐藏层的输出作为 embedding。

如果我们的 RNN 有很多层，我们要拿那一隐藏层的输出作为 embedding？

在 ELMO 中，它取出每一层得到的向量，经过运算得到我们每一个单词的 embedding

比如上图，假设我们有2层，所以每个单词都会得到 2 个向量，最简单的方法就是把两个向量加起来作为这个单词的embedding。

EMLO中会把两个向量取出来，然后乘以不同的权重 $\alpha $，再将得到的我们得到的 embedding 做下游任务。

$\alpha $ 也是模型学习得到的，它会根据我们的下游任务一起训练得到，所以不同的任务用到的 $\alpha $ 是不一样的

比如我们的 embedding 可以有3个来源，如上图所示。分别是

原来没有经过 contextualized 的 embedding，就是上面的 Token

Token 经过第一层抽出第一个 embedding

Token 经过第二层抽出第二个 embedding

颜色的深浅代表了权重的大小，可以看到不同的任务(SRL、Coref 等)有着不同的权重。

BERT

BERT 是 Bidirectional Encoder Representations from Transformers 的缩写，BERT 是 Transformer 中的 Encoder。它由许多个 Encoder 堆叠而成

在 BERT 里面，我们的文本是不需要标签的，只有收集到一堆句子就可以训练了。

BERT 是 Encoder，所以可以看成输入一个句子，输出 embedding，每个 embedding 对应一个 word

上图的例子我们是以 “词” 为单位，有时候我们以 “字” 为单位会更好。比如中文的 “词” 是很多的，但是常用的 “字” 是有限的。

在 BERT 中，有两种训练方法，一种是 Masked LM。另一种是 Next Sentence Prediction。但一般同时使用，会取得更好的效果。下图是 BERT 的大体架构。可以看到 Pre-training 阶段和 Fine-Tuning 阶段中 BERT 模型，只有输出层不同，其他部分是完全一样的。