Self-attention计算方法

最新推荐文章于 2024-06-02 05:04:32 发布

Madname

最新推荐文章于 2024-06-02 05:04:32 发布

阅读量4.2k

点赞数 7

分类专栏： BERT

本文链接：https://blog.csdn.net/weixin_43282288/article/details/103513107

版权

BERT 专栏收录该内容

5 篇文章 1 订阅

订阅专栏

在这里插入图片描述

三个矩阵

首先，Inputs为x₁~x₄，是一个sequence，每一个Input先通过一个Embedding，乘上一个Matrix得到(a₁,a₄)，然后放入self-attention
在self-attention当中，每一个Input都分别乘上3个不同的Matrix产生3个不同的Vector，分别命名为q，k，v
在这里插入图片描述
q代表query，to match others，每一个Input都乘上一个Matrix W_q，就得到q₁~q₄，叫做query
k代表key，to be matched计算同上
v就是要被抽取出来的information，计算同上

现在，每一个a都有qkv3个不同的Vector，接下来，拿每一个query q，去对每一个key k去做attention
attention简单来说就是输入2个向量，out一个分数先看q₁，对k₁做attention，得到α_1,1
在这里插入图片描述
同理得到α_1,2，α_1,3，α_1,4，至此得到了q₁对k_1,2,3,4的attention，d为q与k的Dimension(维度)，因为q与k做点乘，所以维度越大，算出来的值越大。
前面说过attention是输入2个Vector，输出1个out分值，不能让分值随向量维度的增大而增大，softmax之后会导致梯度消失，所以要先进行一个缩放。
也可以尝试用其他的attention，不一定要用Dot-Product Attention
在这里插入图片描述
接下来将得到的α_1,1~α_1,4通过一个softmax层得到 $\hat α$

然后拿 $\hat α$ 去和每一个v相乘，得到的Vector加起来，就得到了一个Vector，这个Vector就是b₁
self-attention输入是一个sequence，输出也是一个sequence，现在得到了输出的seq的第一个Vector b₁，此时可以知道，产生b₁的时候，已经看到了a₁~a₄的词序
如果产生b₁的时候不想考虑整个句子的词序，只想考虑local的information，只需要让 $\hat α$ ₂₃₄产生出来的值变为0，就可以只考虑local的information
而如果要考虑最远的x₄产生的影响，只需要让 $\hat α$ ₄有值就可以了
在这里插入图片描述
刚刚算出来了b₁，在同时也可以算b₂，b₃，b₄

现在得到b₁~b₄，且他们可以平行的被计算出来，可以被加速。

平行化

那么self-attention是怎么做平行化的？
刚刚讲
a₁乘上一个W_q得到q₁
a₂乘上一个W_q得到q₂
所以可以把a₁到a₄拼起来变成一个Matrix，用I表示，用I乘上W_q就可以得到Q，Q中每一个col(q)代表一个query
在这里插入图片描述

同理得到KV
在这里插入图片描述

刚刚讲到，用q₁，对每一个做attention，其实就是做Dot-Product，省略了 $\sqrt d$ 更简洁一点，这里将k₁转置，得到α_1,1 ，同理得到α_1,2，α_1,3，α_1,4，其实都是q₁与不同的k做Dot-Product，所以可以将所有的k集合在一起，将所有的k当做一个Matrix 的row(行)，这个Matrix 乘上q₁得到的结果就是一个向量即α_1,1~α_1,4
所以 $α_{1,1}$ ~ $α_{1,4}$ 的计算是可以平行的
在这里插入图片描述
$q_2$ 也是一样的

同理可得 $q_3$ ， $q_4$

所以计算出整个attention的过程，就等于是我们得到的K做一个转置直接乘上Q就得到attention A，Input为4，A为4x4，如果Input为N，则A为NxN，接下来做softmax得到 $\hat A$

b的计算同上
在这里插入图片描述
V和 $\hat A$ 相乘就得到了O

整体流程Attention(Q,K,V)=softmax( ${QK^T\over \sqrt {d_k}}$ )V

在这里插入图片描述

Multi-headed

作用，如同卷积网络中的多个filter一样
在这里插入图片描述
原文给出的是8个head

举例2个head的计算方法：

要做 $q^{i,1}$ 与别的词做attention，要先与 $k^{i,1}$ $k^{j,1}$ 做Dot-Product最后计算出 $b^{i,1}$

在这里插入图片描述

$q^{i,2}$ 也是一样，最后得到 $b^{i,2}$

在这里插入图片描述

然后做个降维得到 $b^i$
在这里插入图片描述

Multi-head总体架构

Q,K,V都是有多个(默认8个)，最终通过一个全连接层合为一个特征。
在这里插入图片描述

Madname

关注

7
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
Self-attention计算方法

首先，Inputs为x1~x4，是一个sequence，每一个Input先通过一个Embedding，乘上一个Matrix得到(a1,a4)，然后放入self-attention在self-attention当中，每一个Input都分别乘上3个不同的Matrix产生3个不同的Vector，分别命名为q，k，vq代表query，to match others，每一个Input都乘上一个Mat...
复制链接

扫一扫