【王树森】BERT：预训练Transformer模型（个人向笔记）

好心的小明

已于 2024-09-01 09:14:39 修改

阅读量958

点赞数 10

文章标签： bert transformer 笔记

于 2024-08-31 19:56:31 首次发布

本文链接：https://blog.csdn.net/hxdxiaoming/article/details/141757002

版权

前言

BERT：Bidirectional Encoder Representations from Transformer
BERT是用来预训练Transformer模型的encoder的
本节课只讲述主要思想
BERT用两个主要思想来训练Transformer的encoder网络：①随机遮挡单词，让encoder根据上下文来预测被遮挡的单词。②把两句话放在一起，让encoder判断是不是原文相邻的两句话

随机遮挡一个单词，让神经网络来预测这个单词是什么：
我们把cat遮住后如下图所示：我们把原来的 $x_2$ 变为了 $x_M$ ，由前几节课transformer的原理可以知道：最后的输出不仅仅取决于 $x_2$ 或 $x_M$ ，而是包含整句话的信息，最后我们把 $u_M$ 输入到 Softmax 后，期望其中的 cat 的概率是最大的
我们把被遮住的单词 cat 的one-hot向量称为 $e$ ， $p$ 为上面 Softmax 输出的概率分布向量，那么我们要让 $p$ 尽可能地接近 $e$ ，于是我们可以把它丢进交叉熵损失函数里面进行反向传播，梯度下降：
BERT 不需要人为打标，可以自动遮住单词然后生成标签。因此可以拥有很多的数据，可以训练很大的模型

给定随机的两句话，问这两句在文中是否是相邻的
其中输入时两句话，其中 [CLS] 时分类的标号，[SEP] 是分句的标号
该方法会在原来的文本随机选取句子，其中一半是相邻的，一半不是相邻的
CLS符号在经过 Embedding 和 Transformer 的 Encoder 后会生成一个向量 $c$ ，其由一个二分类器来计算值，虽然由 attention 机制我们可以知道： $c$ 还依赖于文中的其他信息，这样就能学到两句话的信息，这样我们就可以让 $c$ 和标签做交叉熵损失，然后就能反向传播和梯度下降来训练。相邻两句话通常含有关联，这样训练就能让 Embedding 和 Encoder 学到这种关联信息。

关注