计算机视觉中的attention机制

最新推荐文章于 2024-03-29 18:44:50 发布

XianyuFFF

最新推荐文章于 2024-03-29 18:44:50 发布

阅读量765

点赞数 1

分类专栏： model Paper

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cindy_lxy/article/details/106189729

版权

Paper 同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

主要从visual grounding, image caption方向(需要进行多模态融合的方向)说一下attention机制的心得，如有不正确欢迎指正留言~~

注意力机制通过设置更高的权重使得模型关注图片中的重要区域。

在 Image caption领域最早使用attention机制是2015年的《Show, Attend and Tell: Neural Image Caption Generation with Visual Attention 》在之前生成描述是通过讲整张图片特征图通过mean pooling得到一维的图片向量送入LSTM得到。而人类对图片进行描述时一般通过对图片中的显著区域进行描述，而不是整张图片，因此不应该给图片每个区域赋予相同得权重。加入attention机制就可通过学习语言的gt与图片不同区域的相似度，实现分配不同的权重。

之后的几年里image caption中attention基本流程：将cnn提出的特征图中每个像素vi与decoder中lstm的隐状态相加后，压缩成一个权重值，乘回特征图。

之后的几年发展中，nlp也使用attention取得了很好的结果，transformer以及k,q,v版的attention。同时提出的non-local，也使得k,q,v版的attention、self-attention在计算机视觉方向又掀起一波热潮。

这时候我们提出一个思考：query与key是否需要相等？

在self-attention中query=key=value,毋庸置疑

在attention的基础概念中：是计算query与key的相似度得到权值，因此query可以和key不等。

经过我的实验，但对于跨模态模型，如果query属于一个模态（自然语言），key属于另一个模态（图像），理论上应该可行，但实验结果表示对于跨模态的q,k。模型无法学到相似度，不能得到正确结果。

我认为这种实验现象是由于query和key的差别过大导致。这时候对于大多数的文章，采用将多模态特征concat结合做为key, query。实现了减小差异，取得实验效果。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
计算机视觉中的attention机制

主要从visual grounding, image caption方向(需要进行多模态融合的方向)说一下attention机制的心得，如有不正确欢迎指正留言~~注意力机制通过设置更高的权重使得模型关注图片中的重要区域。在 Image caption领域最早使用attention机制是2015年的《Show, Attend and Tell: Neural Image Caption Generation with Visual Attention 》在之前生成描述是通过讲整张图片特征图通过mean
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。