笔记：ML-LHY: Transformer / Self-attention

最新推荐文章于 2021-11-27 15:07:53 发布

snoopy_21

最新推荐文章于 2021-11-27 15:07:53 发布

阅读量203

点赞数

分类专栏：笔记李宏毅ML课程笔记机器学习

本文链接：https://blog.csdn.net/qq_29598161/article/details/112737703

版权

笔记同时被 3 个专栏收录

68 篇文章 7 订阅

订阅专栏

机器学习

32 篇文章 0 订阅

订阅专栏

李宏毅ML课程笔记

31 篇文章 4 订阅

订阅专栏

Transformer主要思想是Self-attention，详细介绍了Self-attention过程，简单介绍Transformer框架
pdf 视频

Sequence

在这里插入图片描述

用RNN很难并行训练/推理，计算 $b^4$ 时必须先计算 $b^1,b^2,b^3$ 。
考虑用CNN，虽然可以做到并行训练/推理，但是需要叠很多层，才能包含长序列。
而使用Self-Attention，可以取得RNN，并且是可以并行计算。

Self-Attention

在这里插入图片描述
使用Self-Attention Layer， $b^i$ 包含了所有输入信息，同时 $b^1, b^2, b^3, b^4$ 可以同时计算。

在这里插入图片描述
Attention is all you need.😏
先对输入的word做Embedding，如何做embedding可以回顾(笔记：ML-LHY-14: Unsupervised Learning - Word Embedding)，这样就把输入word( $x^i$ )转成一样长的vector( $a^i$ )。对 $a^i$ 乘上不同的matrix：

乘 $W^q$ ，得到q:query，去匹配其他key(包括自己的) $q^{i}=W^{q} a^{i}$
乘 $W^k$ ，得到k:key，被其他query匹配(包括自己的) $k^{i}=W^{k} a^{i}$
乘 $W^v$ ，得到v:value，vector( $a^i$ )所包含的信息 $v^{i}=W^{v} a^{i}$

以上 $q, k, v$ 都是长度一样的向量

attention过程就和以往一样，先match，然后softmax，最后weigh sum

match：
在这里插入图片描述
每个输入word( $x^i$ )对应在 $x^j$ 上的初始attention值 $\alpha$ 的输出为：
$\alpha_{j, i}=q^{j} \cdot k^{i} / \sqrt{d}$
除以 $\sqrt{d}$ ，是为了防止维度过高内积值太大。

进行softmax：
在这里插入图片描述
$\hat{\alpha}_{j, i}=\exp \left(\alpha_{j, i}\right) / \sum_{m=1}^L \exp \left(\alpha_{j, m}\right)$

最后进行weight sum：
在这里插入图片描述
输入 $x^j$ 对应的输出：
$b^{j}=\sum_{i=1}^L \hat{\alpha}_{j, i} v^{i}$

综合的式子：
$\begin{aligned} b^{j}&=\sum_{i=1}^L (\exp \left(\alpha_{j, i}\right) / \sum_{m=1}^L \exp \left(\alpha_{j, m}\right)) v^{i}\\ &=\sum_{i=1}^L \left[\exp \left(q^{j} \cdot k^{i} / \sqrt{d}\right) / \sum_{m=1}^L \exp \left(q^{j} \cdot k^{m} / \sqrt{d}\right)\right] v^{i} \end{aligned}$

矩阵形式：
在这里插入图片描述

首先对embedding输出的 $a^i$ 并列，可以得到矩阵 $I$
$I=\left[ a^1 a^2 ...\right]$

各种乘不同矩阵得到输出矩阵 $Q, K, V$ ：
$\left[ q^1 q^2 ... q^i\right] = W^q I = W^q \left[ a^1 a^2 ...q^i\right]\\$

$\left[ k^1 k^2 ...k^i\right] = W^k I = W^k \left[ k^1 k^2 ...k^i \right]\\$

$\left[ v^1 v^2 ... v^i \right] = W^v I = W^v \left[ v^1 v^2 ... v^i \right]\\$

$q^{i}=W^{q} a^{i}$

$k^{i}=W^{k} a^{i}$

$v^{i}=W^{v} a^{i}$

match： 在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
每个输入word( $x^i$ )对应在 $x^j$ 上的初始attention值 $\alpha$ 的输出为：
$\begin{bmatrix} \alpha_{1,1} & \alpha_{2,1} & ... & \alpha_{j,1}\\ \alpha_{1,2} & \alpha_{2,2} & ... & \alpha_{j,2}\\ ... & ... & ... & ...\\ \alpha_{1,i} & \alpha_{2,i} & ... & \alpha_{j,i} \end{bmatrix} = \begin{bmatrix} k_{1} \\ k_{2} \\ ...\\ k_{i} \end{bmatrix}\left[ q^1q^2...q^j \right]\\ A=K^TQ$

$\alpha_{j, i}=q^{j} \cdot k^{i} / \sqrt{d}$

进行softmax：

在这里插入图片描述

$\begin{bmatrix} \hat{\alpha}_{1,1} & \hat{\alpha}_{2,1} & ... & \hat{\alpha}_{j,1} \\ \hat{\alpha}_{1,2} & \hat{\alpha}_{2,2} & ... & \hat{\alpha}_{j,2} \\ ... &... & ... &... \\ \hat{\alpha}_{1,i} & \hat{\alpha}_{2,i} & ... & \hat{\alpha}_{j,i} \end{bmatrix} \Leftarrow \begin{bmatrix} \alpha_{1,1} & \alpha_{2,1} & ... & \alpha_{j,1}\\ \alpha_{1,2} & \alpha_{2,2} & ... & \alpha_{j,2}\\ ... & ... & ... & ...\\ \hat{\alpha}_{1,i}& \alpha_{2,i} & ... & \alpha_{j,i} \end{bmatrix} \\ \hat{A} \Leftarrow A$

$\hat{\alpha}_{j, i}=\exp \left(\alpha_{j, i}\right) / \sum_{m=1}^L \exp \left(\alpha_{j, m}\right)$

最后进行weight sum：
在这里插入图片描述

$[b^1 b^2 ... b^j] =[v^1 v^2 ... v^i] \begin{bmatrix} \hat{\alpha}_{1,1} & \hat{\alpha}_{2,1} & ... & \hat{\alpha}_{j,1} \\ \hat{\alpha}_{1,2} & \hat{\alpha}_{2,2} & ... & \hat{\alpha}_{j,2} \\ ... &... & ... &... \\ \hat{\alpha}_{1,i} & \hat{\alpha}_{2,i} & ... & \hat{\alpha}_{j,i} \end{bmatrix} \\ O=V\hat{A}$

$b^{j}=\sum_{i=1}^L \hat{\alpha}_{j, i} v^{i}$

最后综合就是：

在这里插入图片描述
一堆矩阵乘法，用 GPU 可以加速

Multi-head Self-attention

在这里插入图片描述

可以进行分裂，不同的head产生的attention在不一样的地方。

Positional Encoding

可以发现在self-attention中不存在位置信息，而对于sequence来说，位置信息很重要。
在这里插入图片描述
$e^i$ 求法：
先对位置进行编码(one-hot):
$p^{i}=[...\quad0\quad1\quad0\quad... ]^T$
和 $x^i$ 拼接，然后乘W，W可以分解为 $W^{I}$ 和 $W^{P}$ ，而 $e^i = W^{P} p^{i}$