深度学习-Transformer/Attention

最新推荐文章于 2022-08-04 09:35:28 发布

粥十元的赚赚要努力奔跑

最新推荐文章于 2022-08-04 09:35:28 发布

阅读量247

点赞数

分类专栏：深度学习打卡文章标签：深度学习

本文链接：https://blog.csdn.net/qq_43676847/article/details/116378259

版权

深度学习打卡专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Transformer/Attention

Self-Attention
Multi-Headed Attention
Mask
- Padding Mask
- Sequence Mask
输出层
参考

Self-Attention

本文主要关注attention部分，Attention is all you need 原文包括的positional encoding，layer normalization，和decoder未展开分析，有时间补上~
在这里插入图片描述
这三个attention block都是multi-head attention的形式，输入都是query Q 、key K 、value V 三个元素，只是 Q 、 K 、 V 的取值不同。

理解

以如下句子作为输入：

I like Natural Language Processing , a lot !

根据 Attention is all you need这篇文章，encoder需通过Scaled Dot-Product Attention mechanism（通过 query 和 key 的相似度来确定 value 的权重分布的方法）对每个单词都产生输出向量。下面以第一个单词"I"为例：

query是token "I"的输入词向量表示；
keys是其余所有token的输入词向量表示，也包含"I"；

[like; Natural; Language; Processing; ,; a; lot; !]+[I]

query和keys逐个做点乘，可以得到九个最初的scores（相似度）；
将点乘结果乘以一个常数 $\frac{1}{\sqrt{d_k}}$ ，（该缩放因子可以防止结果过大，使得结果经过softmax计算后落入饱和区间）后进行softmax，得到的结果即是每个词对于当前位置的词的相关性大小；
将输入的九个词向量表示以相关性为权重，求加权和后得到针对单词"I"的输出词向量表示z。
其余单词处理过程同理。

补充：计算query和某个key的score（相似度）常用方法有：

点乘： $s(q, k)=q^Tk$
矩阵相乘： $s(q, k)=q^Tk$
cosine相似度： $k)=\frac{q^Tk}{||q||\cdot||k||}$
concatenate（串联）： $s (q, k) = W [q; k]$
MLP（多层感知机）：引入MLP来拟合出一个相似度， $s(q, k)=h^Ttanh(W [q; k]+b)$ ，其中h是模型参数

图示

在这里插入图片描述

如何获得Q, K, V并计算?

实际应用时，为提高计算速度，用embedding X与随机初始化的矩阵相乘，计算出Q，K，V矩阵，把矩阵Q, K相乘并乘以缩放因子后做softmax操作，最后乘上V矩阵。这种通过 query 和 key 的相似性程度来确定 value 的权重分布的方法被称为Scaled Dot-Product Attention mechanism。在这里插入图片描述

在这里插入图片描述

Multi-Headed Attention

考虑到方差大的问题，将Node-level Attention延伸到Multihead Attention来解决这个问题。将不同head的结果concatenate到一起，能够使模型更容易考虑到输入数据的不同方面：
一次性初始化多组Q，K，V矩阵，然后对于生成的多个特征矩阵Z进行concatenate（串联）得到一个大矩阵，然后用一个随机初始化矩阵与该矩阵相乘，得到最终矩阵。
$head_i=Attention(QW_i^Q, KW_i^K, VW_i^V),$
$W_i^{Q}, W_i^Q, W_i^Q \in R^{d_{model}*d_k}$
$MultiHead(Q, K, V)=Concat(head_1, head_2, ..., head_h),$
其中 $d_k=\frac{d_{model}}{h}$
在这里插入图片描述

Mask

mask 表示掩码，它对某些值进行掩盖，使其在参数更新时不产生效果。Transformer 模型里面涉及两种 mask，分别是 padding mask 和 sequence mask。

其中，padding mask 在所有的 scaled dot-product attention 里面都需要用到，而 sequence mask 只有在 decoder 的 self-attention 里面用到。

Padding Mask

由于每个批次输入序列长度是不一样的，我们要对输入序列进行对齐，在较短的序列后面填充 0；但是如果输入的序列太长，就直接截取较短序列的内容，把多余的直接舍弃。因为这些填充的位置，其实是没什么意义的，所以我们的attention机制不应该把注意力放在这些位置上，所以我们需要进行一些处理。具体的做法是，把这些位置的值加上一个非常大的负数(负无穷)，这样再经过 softmax，这些位置的概率就会接近0。

padding mask 实际上是一个张量，每个值都是一个boolean，值为 false 的地方就是我们要进行处理的地方。

Sequence Mask

sequence mask 是为了使得 decoder 不能看见未来的信息。也就是对于一个序列，在 time_step 为 t 的时刻，在当前time_step解码输出只能依赖当前时刻之前的输出，所以使用 Mask 将后面的掩盖。

具体做法是：产生一个上三角矩阵，上三角的值全为0。把这个矩阵作用在每一个序列上，就可以达到我们的目的。

对于 decoder 的 self-attention，里面使用到的 scaled dot-product attention，同时需要padding mask 和 sequence mask 作为 attn_mask，具体实现就是两个mask相加作为attn_mask。其他情况，attn_mask 一律等于 padding mask。

输出层

当decoder层全部执行完毕后，只需要在结尾再添加一个全连接层（linear）和softmax层就能把得到的向量映射为我们需要的词，假如我们的词典是1w个词，那最终softmax会输入1w个词的概率，概率值最大的对应的词就是我们最终的结果。

一般其作用为在给定context vector c和所有已预测的词 ${y1,...,yt−1\}$ 去预测 $y_t$ ，故t时刻翻译的结果y为以下的联合概率分布：
$p(y|c)=\prod_{t=1}^T p(y_t|c, \{y_1, y_2, ..., y_{t-1}\})$
联系上文Self-Attention计算相关性部分，另外，通过神经网络来表示模型，可以大幅减少模型的参数：
$u_{(c)j}=\left\{ \begin{array}{rcl} C \cdot tanh(\frac{q_{(c)}^Tk_j}{\sqrt{d_k}}) & & {\forall t^{'}<t}\\ {- \infty} & & {otherwise.} \end{array} \right.$
$p(y_i|c)=p(y_t=i|c, y_{1:t-1})=\frac{e^{u_{(c)i}}}{\sum_j e^{u_{(c)}j}}$

在这里插入图片描述

参考

图解Transformer（完整版）
Transformer模型详解
 Attention 机制
 家乐的深度学习笔记「5」 - 多层感知机
 点积 vs. MLP：推荐模型到底用哪个更好？

粥十元的赚赚要努力奔跑

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度学习-Transformer/Attention

Transformer/AttentionSelf-Attention理解图示如何获得Q, K, V并计算?Multi-Headed AttentionMaskSelf-Attention理解以如下句子作为输入：I like Natural Language Processing , a lot !根据 'Attention is all you need’这篇文章，encoder需通过Scaled Dot-Product Attention mechanism（通过 query 和 key 的
复制链接

扫一扫