(七十九):Dynamic Fusion with Intra- and Inter-modality Attention Flow for Visual Question Answering

论文提出了一种动态融合多模态特征的新框架,通过内模态和跨模态注意流,增强视觉问答(VQA)性能。动态内模态注意流模块(DyIntraMAF)利用其他模态信息动态调节注意权重,而跨模态注意流(InterMAF)则学习图像和语言间的交互。实验证明,这种融合方式能显著提高VQA任务的准确性。
摘要由CSDN通过智能技术生成

  • 出处:CVPR 2019: 6639-6648
  • 代码:
  • 题目:基于内模态和跨模态注意流的视觉问答动态融合
  • 主要内容:(1)提出了一种新的基于内模和跨模注意流(DFAF)的动态融合框架,通过交叉融合内模和跨模特征实现多模态融合
    (2)提出了动态模态内注意流(Dynamic intramaf)模块,用于在每个模态内生成有效的注意流,该注意流以其他模态的信息为动态条件。这是我们所提议的框架的核心创新之一。

Abstract

学习有效融合多模态特征是视觉问答的核心问题。

  • 我们提出了一种动态融合多模态特征,通过内模态和跨模态信息流,它们交替地在视觉和语言模式之间传递动态信息。
  • 该方法能够鲁棒捕获语言域与视觉域之间的高层交互,从而显著提高视觉回答的性能
  • 我们还证明了所提出的以其他模态为条件的动态模态内注意流可以动态调节目标模态的模态内注意,这对多模态特征融合至关重要。在VQA 2.0数据集上的实验评估表明,该方法达到了最先进的VQA性能。广泛的消融研究进行了全面的分析提出的方法。

1. Introduction

视觉问答[2]旨在自动回答与给定图像内容相关的自然语言问题。它在实践中有着广泛的应用,如辅助盲人助盲、幼儿教育等,因此成为近年来的研究热点。Visual Question answer (VQA)的性能近年来有了很大的提高,这得益于三个方面的工作。

  1. 首先,更好的视觉和语言特性表示
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Laura_Wangzx

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值