cvpr 注意力机制_计算机视觉中的注意力机制总结

最新推荐文章于 2021-07-27 15:33:24 发布

weixin_39841136

最新推荐文章于 2021-07-27 15:33:24 发布

阅读量1k

点赞数

文章标签： cvpr 注意力机制

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39841136/article/details/112940009

版权

本文深入探讨了注意力机制在计算机视觉和深度学习中的应用，包括序列编码、注意力定义，如自注意力、软注意力和强注意力。特别讨论了视觉中的注意力机制，如空间域、通道域和混合域的注意力模型，以及在语义分割中的应用。文章指出，注意力机制有助于模型捕获全局信息，提高处理效率。

摘要由CSDN通过智能技术生成

一、背景

最早图像领域，后面应用到NLP领域

人类视觉注意力机制，扫描全局图像，获得重点关注区域，投入更多经历，抑制其它无用信息，提高视觉信息处理的效率与准确性。

在深度神经网络的结构设计中，attention所要分配的资源基本上就是权重了。

视觉注意力分为几种，核心思想是基于原有的数据找到其之间的关联性，然后突出其某些重要特征，有通道注意力，像素注意力，多阶注意力等，也有把NLP中的自注意力引入。

二、注意力定义

2.1 序列编码

第一个思路是RNN层递归

RNN结构本身比较简单，也很适合序列建模，但RNN的明显缺点之一就是无法并行，因此速度较慢，这是递归的天然缺陷。另外我个人觉得RNN无法很好地学习到全局的结构信息，因为它本质是一个马尔科夫决策过程。

第二个思路是CNN层，其实CNN的方案也是很自然的，窗口式遍历。CNN方便并行，而且容易捕捉到一些全局的结构信息。

第三个即为self-attention，它的意思是直接将xt与原来的每个词进行比较，最后算出yt。一步到位获取了全局信息

2.2 定义

它的基础是Scaled-Dot Attention，定义如下：

其中Q∈ℝn×dk,K∈ℝm×dk,V∈ℝm×dv，softmax则是在m的那一维进行归一化。而自注意力，则是对于同一个X∈ℝn×d，通过不同的投影矩阵Wq,Wk,Wv∈ℝd×d′得到Q=XWq,K=XWk,V=XWv，然后再做Attention，即

至于Multi-Head Attention，则不过是Attention运算在不同的参数下重复多次然后将多个输出拼接起来，属于比较朴素的增强。

本质上来看，自注意力就是通过一个n×n的矩阵A和d×d′的矩阵Wv，将原本是n×d的矩阵X，变成了n×d′的矩阵AXWv。其中矩阵A是动态生成的，即

最低0.47元/天解锁文章

weixin_39841136

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。