多模态学习历程（1.1 Vision Transformer解读_Self-attention）

最新推荐文章于 2024-09-17 23:15:52 发布

流光似月，繁星似锦

最新推荐文章于 2024-09-17 23:15:52 发布

阅读量918

点赞数 26

文章标签：学习 transformer 深度学习

本文链接：https://blog.csdn.net/qq_42987894/article/details/135465141

版权

本文详细介绍了Transformer模型中的自注意力机制，包括其如何通过self-attention层取代RNN，以及该机制如何通过向量匹配、内积归一化和softmax操作来处理序列数据。特别强调了其并行计算的优势以及在考虑全局和局部信息时的选择。

摘要由CSDN通过智能技术生成

@[TOC] （Vision Transformer , 通用 Vision Backbone 超详细解读）

Self-attention

Transformer是一个Sequence to Sequence model，特别之处在于它大量用到了self-attention。
目的：是使用self-attention layer取代RNN所做的事情。
在这里插入图片描述所以重点是：我们有一种新的layer，叫self-attention，它的输入和输出和RNN是一模一样的，输入一个sequence，输出一个sequence，它的每一个输出都看过了整个的输入sequence，这一点与bi-directional RNN相同。但是神奇的地方是：它的每一个输出 $b_{_1}$ - $b_{_4}$ 可以并行化计算。

那么self-attention具体是怎么做的呢？

在这里插入图片描述

首先假设我们的input是上图的 $x_{_1}$ - $x_{_4}$ ，是一个sequence，每一个input (vector)先乘上一个矩阵 W得到embedding，即向量 $a_{_1}$ - $a_{_4}$ 。接着这个embedding进入self-attention层，每一个向量分别乘上3个不同的transformation matrix $W_{_q}$ , $W_{_k}$ , $W_{_v}$ ，以向量 $q_{_1}$ , $k_{_1}$ , $v_{_1}$ 为例，分别得到3个不同的向量。

在这里插入图片描述
接下来使用每个query q去对每个key k 做attention，attention就是匹配这2个向量有多接近，比如我现在要对 $q^1$ 和 $k^1$ 做attention，我就可以把这2个向量做scaled inner product，得到 $a_{_1,_1}$ 。接下来你再拿
$q^1$ 和 $k^2$ 做attention，得到 $a_{_1,_2}$ ,以此类推，得到 $a_{_1,_4}$ 和 $a_{_1,_4}$ 。那这个scaled inner product具体是怎么计算的呢？
$a_{_1,_i}=q^1*k^i/\sqrt{d}$
式中，d 是 q跟 k的维度。因为 q*k的数值会随着dimension的增大而增大，所以要除以 $\sqrt{dimension}$ 的值，相当于归一化的效果。

接下来要做的事下如图所示，把计算得到的所有 a_{_1,_i}值取 softmax操作。
在这里插入图片描述取完 softmax操作以后，我们得到了 $a_{_1,_i}$ ，我们用它和所有的
$v^i$ 值进行相乘.把结果通通加起来得到 $b^1$ ,如果要考虑local的information，则只需要学习出相应的 $a_{_1,_i}=0$