注意力机制的本质|Self-Attention|Transformer|QKV矩阵

Xiao_Ya__

于 2024-06-02 15:51:50 发布

阅读量562

点赞数 6

分类专栏：深度学习文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Xiao_Ya__/article/details/139389263

版权

深度学习专栏收录该内容

37 篇文章 0 订阅

订阅专栏

Attention Is All You Need

-Ashish Vaswani

1.Self-Attention是个啥，自己注意自己？

2.Q、K、V又是什么？

3.为什么它们要叫query、key、value，它们有什么关系？

先来看一个问题，假设现在有一个键值对(Python字典)

自然地，推断其体重在43~48之间，但是还需要定量计算体重预测值。

由于57到56、58的距离一样，所以一种方法是取它们对应体重的平均值。

因为57距离56、58最近，我们自然会非常“注意”它们，所以分给它们的注意力权重各为0.5。不过没有用上其它的(Key,Value)，似乎应该调整一下注意力权重，但权重如何计算？

假设用a(q,k)来表示q与k对应的注意力权重，则体重预测值f(q)为

a是任意能刻画相关性的函微，但需要归一化，我们以高斯核（注意力分数）为例(包括softmax函数) 。

通过这种方式我们就可以求得体重估计值，这也就是注意力机制(Attention)。

所以把上面的q叫做query（请求），k叫做key（键），v叫做value(值) 。

q、k、v都为多维的情况也是类似的 ——假设现在给出的q是二维的

由于q1和k1都是二维向量

注意力分数a(q,ki)可以是以下几种

以点积模型为例

q2也是类似的，不再赘述

为了方便，用矩阵来表示

为了缓解梯度消失的问题，还会除以一个特征维度

把这一系列操作形象地称为缩放点积注意力模型（scaled dot-product attention)

4.如果Q、K、V是同一个矩阵会发生什么？

没错，那就是自注意力（Self-Attention)

用X来表示这个矩阵

则可以表示为如下式子

但在实际运用中可能会对X先做不同的线性变换再输入，比如(Transformer)模型

这可能是因为X转换空间后能更加专注注意力的学习。

关注

6
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
注意力机制的本质|Self-Attention|Transformer|QKV矩阵

注意力机制的本质|Self-Attention|Transformer|QKV矩阵
复制链接

扫一扫

专栏目录

Xiao_Ya__ CSDN认证博客专家 CSDN认证企业博客

码龄4年

100: 原创

8941: 周排名

1万+: 总排名

7万+: 访问

: 等级

1877: 积分

528: 粉丝

866: 获赞

34: 评论

1283: 收藏

私信

关注

热门文章

分类专栏

深度学习 37篇
目标检测 13篇
YOLO 5篇
机器学习 17篇
pip 3篇
bug 5篇
论文阅读 7篇
电磁 4篇
co-tracker 2篇
MMDetection 3篇
Kaggle 13篇
Keras 6篇
线性代数 1篇
微积分 1篇
后端开发 3篇
前端开发 1篇
前后端分离 3篇
数据结构 35篇
考研 36篇
工具箱 2篇

最新评论

Yolov8在RK3588上进行自定义目标检测(四)
不会唱歌的拖拉机: 很厉害，博主
2024 王道考研-数据结构（线性表_1）
Xiao_Ya__: 最后一个元素填补空出的位置后，就相等于最后一个位置空了出来，此时的长度会减一
2024 王道考研-数据结构（线性表_1）
A_shijieba: 你好第一个题空出的位置不是已经由最后一个元素填补了吗为什么长度还要减一？
CoTracker: It is Better to Track Together(论文阅读)
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
Faster R-CNN: Towards Real-Time ObjectDetection with Region Proposal Networks(论文阅读)
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。