计算机视觉中的attention机制

主要从visual grounding, image caption方向(需要进行多模态融合的方向)说一下attention机制的心得,如有不正确欢迎指正留言~~

注意力机制通过设置更高的权重使得模型关注图片中的重要区域。

在 Image caption领域最早使用attention机制是2015年的《Show, Attend and Tell: Neural Image Caption Generation with Visual Attention 》在之前生成描述是通过讲整张图片特征图通过mean pooling得到一维的图片向量送入LSTM得到。而人类对图片进行描述时一般通过对图片中的显著区域进行描述,而不是整张图片,因此不应该给图片每个区域赋予相同得权重。加入attention机制就可通过学习语言的gt与图片不同区域的相似度,实现分配不同的权重。

之后的几年里image caption中attention基本流程:将cnn提出的特征图中每个像素vi与decoder中lstm的隐状态相加后,压缩成一个权重值,乘回特征图。

之后的几年发展中,nlp也使用attention取得了很好的结果,transformer以及k,q,v版的attention。同时提出的non-local,也使得k,q,v版的attention、self-attention在计算机视觉方向又掀起一波热潮。

这时候我们提出一个思考:query与key是否需要相等?

在self-attention中query=key=value,毋庸置疑

在attention的基础概念中:是计算query与key的相似度得到权值,因此query可以和key不等。

经过我的实验,但对于跨模态模型,如果query属于一个模态(自然语言),key属于另一个模态(图像),理论上应该可行,但实验结果表示对于跨模态的q,k。模型无法学到相似度,不能得到正确结果。

我认为这种实验现象是由于query和key的差别过大导致。这时候对于大多数的文章,采用将多模态特征concat结合做为key, query。实现了减小差异,取得实验效果。

 

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Attention计算机视觉指的是注意力机制,其基本思想是使系统能够学会注意力,即能够忽略无关信息而关注重点信息。 在计算机视觉,类似于我们看一张图片时,我们的注意力往往会集在图片的某些特定区域,比如人脸或者其他引人注目的物体。 这种注意力机制可以通过模仿人类的感知方式来理解。例如,当天空有只鸟飞过时,我们的注意力会自然地跟随着鸟儿移动,而天空成为了一个背景信息。 这种注意力机制计算机视觉可以用来提取图像的关键特征,从而实现更准确的目标检测、图像分类和图像生成等任务。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [计算机视觉attention](https://blog.csdn.net/Biyoner/article/details/87480707)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* [计算机视觉 - Attention机制(附代码)](https://blog.csdn.net/weixin_42010722/article/details/121515809)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值