(五十七):Deep Modular Co-Attention Networks for Visual Question Answering

  • 出处: CVPR 2019: 6281-6290
  • 代码:https://github.com/MILVLG/mcan-vqa
  • 题目:面向视觉问答的深度模块化共同注意网络
  • 主要内容:本文提出了一种VQA的深度模块化协同注意网络(MCAN)。MCAN由模块化共注意层(MCA)级联组成,每个层都由自注意和引导注意单元组成,以协同建模模态内部和模态间的相互作用。通过使用编码器-解码器策略对MCA层进行深度叠加。

Abstract

视觉问答(VQA)要求对图像的视觉内容和问题的文本内容都有精细的、同时的理解。因此,设计一个有效的“共同注意”模型,将问题中的关键词与图像中的关键对象联系起来,是VQA表现的核心。
迄今为止,大多数共同注意学习的成功尝试都是通过使用浅层模型实现的,而深度共同注意模型与浅层模型相比几乎没有改善
在本文中,我们提出了一种深度多模态共注意网络(MCAN),它由深度级联的模共注意层组成。每一个MCA层都使用两个基本注意单元的模块组成来模拟问题和图像的自我注意,以及问题引导的图像注意
我们在基准VQA-v2数据集上定量和定性地评估了MCAN,并进行了广泛的消融研究,以探索MCAN有效性背后的原因。实验结果表明,MCAN的性能明显优于以往的先进技术。我们最好的单一模型在测试开发集上提供了70.63%的整体准确性。

1. Introduction

连接视觉和语言的多模态学习受到了计算机视觉和自然语

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
co-attention协同注意力机制是一种在多模态任务中应用的机制。它通过同时关注两个不同的输入序列,以便更好地理解它们之间的关系。这种机制有两种实现方式,分别为Parallel co-attention mechanism和Alternating co-attention mechanism。 其中,Parallel co-attention mechanism是将注意力机制应用在两个输入序列之间的每一次互动上。具体来说,它为每个单词在区域上创建一个注意图,并为每个区域在单词上创建一个注意图。这种机制可以循环叠加使用,以进一步增强关注的效果。 Alternating co-attention mechanism则是通过交替地在两个输入序列之间进行注意力计算来实现。它首先计算第一个序列对第二个序列的注意力分布,然后再计算第二个序列对第一个序列的注意力分布。通过交替计算,可以更好地捕捉到两个序列之间的相关性。 总之,co-attention协同注意力机制是一种在多模态任务中应用的机制,它可以帮助我们更好地理解和建模不同输入序列之间的关系。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [Co Attention注意力机制实现](https://blog.csdn.net/tszupup/article/details/117292683)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] - *2* [【论文解析】《 Dense Symmetric Co-Attention for VQA》改进视觉和语言表示的密集对称协同注意力机制的...](https://blog.csdn.net/weixin_44794449/article/details/101753183)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] - *3* [《Deep Modular Co-Attention Networks for Visual Question Answering》论文笔记](https://download.csdn.net/download/weixin_38621897/14035239)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Laura_Wangzx

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值