Transformer、BERT学习笔记

最新推荐文章于 2024-06-13 22:11:14 发布

NeverMoreH

最新推荐文章于 2024-06-13 22:11:14 发布

阅读量414

点赞数

分类专栏： # visual BERT 文章标签： Transformer BERT

本文链接：https://blog.csdn.net/ms961516792/article/details/107540909

版权

visual BERT 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

Transformer

引言

Attention Is All You Need
文章链接
本文出自NIPS2017，一作是Ashish Vaswani，来自Google Brain。Transformer最开始是基于机器翻译任务提出的，打破了传统的RNN框架，完全依赖于注意力机制。能够很容易的并行训练，仅在8个P100上训练了12个小时，就实现了当时的新SOTA。

解析

整体结构

Transformer的结构如下图所示。还是机器翻译领域传统的Encoder-Decoder架构。

Encoder部分使用 $N = 6$ 个Layer组成，每个Layer又包含两个sub-layer，分别是：多头注意力层（Multi-Head Attention）、前向传播层（Feed Forward）。每个sub-layer后面都添加了一个layer normalization层（出自文章），且使用了类似ResNet的跳跃连接。综上，对于输入为 $x$ 的sub-layer，它的输出是： $\text{LayerNorm}(x+\text{Sublayer}(x))$ 。

Decoder部分也是使用 $N = 6$ 个Layer组成，每个Layer包含三个sub-layer，分别是：带有掩码的多头注意力层（Masked Multi-Head Attention）、多头注意力层（Multi-Head Attention）、前向传播层（Feed Forward）。

注意力机制

首先介绍基于点积的注意力（Scaled Dot-Product Attention），再引申出本文中用到的自注意力（Self Attention）和多头注意力（Multi-Head Attention）。

基于点积的注意力的网络结构如下图所示，具有三个输入： $Q$ 、 $K$ 和 $V$ ，分别代表 $Q u e r y$ 、 $K e y$ 和 $V a l u e$ ，这三个变量的含义下面会详细介绍。

下面，以机器翻译为例子，详细介绍注意力机制的计算过程。假设，此时模型的输入 $I="word_1 \space word_2 \space word_3"$ ，使用 $N$ 表示单词个数，例子中 $N = 3$ 。

Embedding
对输入的句子 $I$ 进行word embedding后，可以得到句子的特征 $E$ ，是一个 $\times Dim^E$ 的矩阵。按照下标进行索引即可得到每个单词的特征，这里使用 $E_i(1 \le i \le N)$ 表示单词 $word_i$ 的特征，每个 $E_i$ 的大小均为 $\times Dim^E$ 。
获取 $Q, K, V$
使用三个不同的权重矩阵 $W^Q, W^K, W^V$ ，分别乘以 $E$ 即可得到 $Q, K, V$ ，大小分别为 $N^Q \times Dim^Q, \space N^K \times Dim^K, \space N^V \times Dim^V$ 。
$W^Q, \space K = E W^K, \space V = E W^V$
直观上来看， $N^Q=N^K=N^V=N$ （实际上不一定，后文会说），下面以这种假设为前提，看一下如何计算Attention。
计算Attention
对于单词 $word_i$ 来说，首先，通过索引得到其对应的查询向量 $Q_i$ 。通过矩阵乘法操作 $S_i=Q_i K^T$ 可以得到一个大小为 $\times N$ 的向量 $S_i$ ，而 $S_i[j]$ 即为 $word_i$ 和 $word_j$ 的Score。然后，使用 $\text{softmax}$ 将Score进行归一化，得到Attention Weight $W_i$ ，大小仍是 $\times N$ ，含义仍是 $W_i[j]$ 表示 $word_i$ 和 $word_j$ 的相关性。，整个过程可以概括为（初始时 $Q_i$ 的大小为 $\times Dim^Q$ ）：
$\times Dim^Q \space \space \space \underrightarrow{\times K^T} \space \space \space 1 \times N \space \space \space \underrightarrow{\text{softmax}} \space \space \space 1 \times N \space \space \space \underrightarrow{\times V} \space \space \space 1 \times Dim^V$
不难发现，对于每一个 $Q_i$ ，分别计算再将结果Concatenate和直接使用 $Q$ 进行计算得到的结果是一致的：
$\times Dim^Q \space \space \space \underrightarrow{\times K^T} \space \space \space N \times N \space \space \space \underrightarrow{\text{softmax}} \space \space \space N \times N \space \space \space \underrightarrow{\times V} \space \space \space N \times Dim^V$
上述介绍中，笔者实际上省略了论文中的一个重要操作——除以 $\sqrt{Dim^K}$ ，文中给出的此操作的作用是：作者同时测试了点积注意力和additive attention（出自文章）的表现，在 $Dim^K$ 很小时，两种注意力的性能接近，在 $Dim^K$ 很大时，前者的表现要更出色。而随着 $Dim^K$ 的增加，点积操作 $QK^T$ 得到的结果会变大，经过 $\text{softmax}$ 后，反向传播回来的梯度会很小，会对训练过程带来阻碍，故除以 $\sqrt{Dim^K}$ 进行缩放，再进行 $\text{softmax}$ 。综上，完整的计算Attention的过程为：
$\text{Attention}(Q, K, V)=\text{softmax}(\frac{QK^T}{\sqrt{Dim^K}})V$

现在，总结一下注意力到底做了什么。我觉得用一句话概括，就是：使用 $K, V$ 来获得 $Q$ 的更优表示。（以下部分参考了[2]）

$Q$ 代表我们想要表达的内容（或序列，暂记为 $X$ ）在高维空间 $A$ 中的表达， $K$ 代表某内容（或序列，暂记为 $Y$ ）在高维空间 $A$ 中的表达， $V$ 代表某内容（或序列，暂记为 $Y$ ）在高维空间 $B$ 中的表达。即：
$\space K=A(Y), \space V=B(Y)$
也就是说，通过计算两个不同序列 $X, Y$ 在同一高维空间 $A$ 的相似度，作为权重作用在序列 $Y$ 在另一高维空间 $B$ 上，从而获得序列 $X$ 在高维空间 $B$ 中的表达 $B (X)$ 。

由上面这些分析可知，在注意力模块中，必满足以下两个约束：

$Dim^Q = Dim^K$ （即： $Q$ 和 $K$ 在同一高维空间中，这样才可以计算相似度）
$N^K = N^V$ （即： $K$ 和 $V$ 中的“单词”（不一定限定于单词）个数相同，因为他们是同一序列在不同高维空间的表达）

自注意力

其实只有一句话， $Q = K = V$

多头注意力

这部分也很好理解，就是通过多组不同的 $Q, K, V$ 分别计算注意力，再Concat一下。这样可以学到不同空间的表示。

Positional Encoding

TO DO.

参考

[1] https://blog.csdn.net/longxinchen_ml/article/details/86533005
[2] https://zhuanlan.zhihu.com/p/104393915

BERT

引言

Pre-training of Deep Bidirectional Transformers for Language Understanding
文章链接

解析

TO DO.

参考

NeverMoreH

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Transformer、BERT学习笔记

目录TransformerBERT题目TransformerBERT题目Pre-training of Deep Bidirectional Transformers for Language Understanding下载链接
复制链接

扫一扫

专栏目录