如何理解图片处理中的attention

octopusAAA

已于 2024-06-29 12:08:42 修改

阅读量699

点赞数 12

分类专栏：学术进展文章标签：算法人工智能

于 2024-02-26 22:20:24 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/andrew0087/article/details/136244000

版权

学术进展专栏收录该内容

4 篇文章 0 订阅

订阅专栏

本文介绍了NLP中的注意力机制如何通过矩阵运算实现权重池化，以及在视觉领域的应用，如VIT中图片注意力的处理过程。重点讲解了Q、K、V的维度转换和softmax操作的作用。同时提到了不同类型的图片注意力域和VIT模型的工作原理。

摘要由CSDN通过智能技术生成

1. NLP里的attention怎么理解

LLM Visualization

可以先借助这个可视化的图来理解。

最开始输入的特征维度为 [C, T]。

训练三组weight(Q,K,V), 维度分别为[A, C], 可以将特征压缩成三组vecotor 维度为[A,T]

Q和K（转置）相乘得到attention matrix, 维度为[A,A]

除以根号d之后（点积的数量级增长很大，会将 softmax 函数推向了梯度极小的区域[1]）

经过softmax之后再,乘以V，最终输出的维度还是[C, T]。

Attention本质上是pooling：一种有权重的avg-pooling

2. 图片的attention

跟文本类似，图片的attention也会保持输入和输出的维度一致。就注意力关注的域来分[2]：

空间域(spatial domain)
通道域(channel domain)
层域(layer domain)
混合域(mixed domain)
时间域(time domain)

首先要理解图片patch怎么变成attention里的token的，比较经典的工作当属VIT，

假设原始图片为[224,224,3], 每个patch大小假设为[16,16,3]，则最终得到196个Patch。每个patch可以通过一个linear projection映射成一个一维向量（假设维度为768）。那就可以得到[196,768]维的输入。

VIT里使用了conv2D(kernel size 16*16,stride 16*16)来实现特征提取, 输入是[224,224,3]，输出是[14,14,768]。然后将H,W维度压缩到一起，从而变成[196,768]维。

参考文章

[1] 为什么 dot-product attention 需要被 scaled？_scaled dot-product-CSDN博客

[2] 综述---图像处理中的注意力机制_注意力和原图对应的关系-CSDN博客

[3] ViT( Vision Transformer) — PaddleEdu documentation

[4] 再读VIT，还有多少细节是你不知道的 - 知乎

关注

12
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
如何理解图片处理中的attention

可以先借助这个可视化的图来理解。最开始输出的特征维度为 [C, T]。训练三组weight(Q,K,V), 维度分别为[A, C], 可以将特征压缩成三组vecotor 维度为[A,T]Q和K（转置）相乘得到attention matrix, 维度为[A,A]除以根号d之后（点积的数量级增长很大，会将 softmax 函数推向了梯度极小的区域[1]）经过softmax之后再,乘以V，最终输出的维度还是[C, T]。
复制链接

扫一扫

专栏目录

octopusAAA CSDN认证博客专家 CSDN认证企业博客

码龄10年

5: 原创

82万+: 周排名

14万+: 总排名

2365: 访问

: 等级

93: 积分

43: 粉丝

33: 获赞

0: 评论

44: 收藏

私信

关注

热门文章

分类专栏

学术进展 4篇
视频处理基础 1篇

最新评论

如何理解图片处理中的attention
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
音视频直播推流
CSDN-Ada助手: 恭喜你写了第一篇博客！你的文章“音视频直播推流”非常有价值，对于想要学习这方面知识的读者来说一定很有帮助。希望你能继续创作，分享更多有趣的内容。推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。