[模型学习]Attention机制及其原理推导

Amigo_5610

已于 2023-02-08 23:43:44 修改

阅读量5.9k

点赞数 8

文章标签：学习

于 2023-02-08 21:36:54 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/anormalcell/article/details/128942622

版权

Attention的基本原理

Attention基本原理

在该公式中，X为输入矩阵

1.1 步骤1

注意力机制步骤1

首先，每一个输入向量分别和Wq, Wk, Wv矩阵相乘，得到对应的q, k, v向量，然后每一个q向量分别与其他的k向量做内积，得到各个注意力分数(Attention Score)α，在得到该分数后，对其做softmax操作（操作流程在上图上方），得到α'，这时，所有的α'的和为1。

1.2 步骤2

注意力机制步骤2

在得到softmax后的α'后，将每个输入向量对应的α'和其对应的v向量相乘(做缩放)，然后将所有缩放后的向量相加，得到y向量。

这是前三个公式的示意图

1.3 这两张图展示了第四个公式的实际过程

1.4 这两张图展示了最后两个公式的实际过程

整体看来，每一个输入元素都能够通过注意力分数得到与其他元素的关联信息，做到了“天涯若比邻”的效果。

1.5 位置向量的原理

在获取到注意力机制的结果后，由于我们需要处理的是序列，有先后关系，因此需要一个向量来表征一个元素的位置，这就是为什么需要位置向量。

在上图中，红色的e向量就是我们所说的位置向量。在这里，我们假设要求x2的位置向量，x2的位置是2，那么pos=2，x2的维度是4，位置向量的维度与对应向量维度相等，那么位置向量的维度也为4。在此基础上，位置向量的奇数位置的元素计算公式为对应的cos公式，偶数位置的计算公式为sin公式，如图，由此，得到位置向量。

如何形象理解注意力机制

$\text{[math]}$

众所周知，这个是Attention的公式，但是很明显，我们除了会直接使用它，并不能理解它的实际涵义。现在，我们忽略Q, K, V矩阵，把上面的公式转换成下一个公式：

$\text{[math]}$

首先我们观察 $\text{[math]}$ ,这是一个矩阵乘以其转置，我们下面模拟这个运算过程：

我们假设左边的是X，右边的是X的转置，经过矩阵乘法，得到结果，矩阵乘法的这里是做向量内积，我们知道，向量越重合（越相似），内积越大，若垂直（不想管），内积越小。由此可看出不同字符之间的相似性。

再经过Softmax函数，可以得到右下角的注意力得分，也就是本元素和其他元素的关系，也就是在1中我们的α。

得到注意力分数后，对于1中，就是分数和V向量相乘，在将相乘后的向量相加的过程，此处也可以按下图来理解，可以看到cross的向量是其他词语的向量经过叠加后的结果：

以上就是所有内容

在此特别感谢b站的课程up：【Attention、Transformer公式推导和矩阵变化】 https://www.bilibili.com/video/BV1q3411U7Hi/?share_source=copy_web&vd_source=54a003f2fe57290ef9f347426cdb53c9

以及知乎的创作者：https://zhuanlan.zhihu.com/p/410776234

博客等级

码龄5年

7
原创

26
点赞

82
收藏

213
粉丝

关注

私信

热门文章

最新评论

[模型学习与对比]DETR和ViT
weixin_41812309: yolo可以
[模型学习与对比]DETR和ViT
deavn2236: 您好，想问下现在比较好的视觉transformer backbone一般用什么呢，backbone的输出一般怎么去定，只用encode的输出吗
[模型学习与对比]DETR和ViT
David_jiahuan: 博主，你好！请教一下： 1、DETR模型是否只能用来做图像的目标检测任务； 2、vit是否只能用来做图像的分类任务； 3、有没有一种模型能够完成图像方面包括分类、检测、分割等在内的所有任务？
[模型学习与对比]DETR和ViT
Amigo_5610: 不好意思我刚看到，谢谢你的评论。ViT和DETR确实在有无解码器上有肉眼可见的区别。但是我想简要说明下，我的当前研究内容是：如何基于Transformer理念，对输入的内容（图像，序列等）进行更好的特征提取（换句话说就是怎么把这玩意当成backbone用），这也是我只关注了其Encoder的部分区别的原因。我会在之后的内容中做出修改，谢谢你的提醒！
[模型学习与对比]DETR和ViT
BaoHu_985: vit不是没有解码器吗，这不是一个大区别吗

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Amigo_5610 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。