（七十九）：Dynamic Fusion with Intra- and Inter-modality Attention Flow for Visual Question Answering

Laura_Wangzx

已于 2023-06-28 22:24:23 修改

阅读量37

点赞数

分类专栏： “情感分析”研究方向论文-精读总结文章标签：计算机视觉人工智能深度学习

于 2022-03-27 09:11:30 首次发布

本文链接：https://blog.csdn.net/qq_37486501/article/details/122570366

版权

88 篇文章 197 订阅 ¥19.90 ¥99.00

订阅专栏

论文提出了一种动态融合多模态特征的新框架，通过内模态和跨模态注意流，增强视觉问答（VQA）性能。动态内模态注意流模块（DyIntraMAF）利用其他模态信息动态调节注意权重，而跨模态注意流（InterMAF）则学习图像和语言间的交互。实验证明，这种融合方式能显著提高VQA任务的准确性。

摘要由CSDN通过智能技术生成

出处：CVPR 2019: 6639-6648
代码：
题目：基于内模态和跨模态注意流的视觉问答动态融合
主要内容：(1)提出了一种新的基于内模和跨模注意流(DFAF)的动态融合框架，通过交叉融合内模和跨模特征实现多模态融合。
(2)提出了动态模态内注意流(Dynamic intramaf)模块，用于在每个模态内生成有效的注意流，该注意流以其他模态的信息为动态条件。这是我们所提议的框架的核心创新之一。

Abstract

学习有效融合多模态特征是视觉问答的核心问题。

我们提出了一种动态融合多模态特征，通过内模态和跨模态信息流，它们交替地在视觉和语言模式之间传递动态信息。
该方法能够鲁棒捕获语言域与视觉域之间的高层交互，从而显著提高视觉回答的性能。
我们还证明了所提出的以其他模态为条件的动态模态内注意流可以动态调节目标模态的模态内注意，这对多模态特征融合至关重要。在VQA 2.0数据集上的实验评估表明，该方法达到了最先进的VQA性能。广泛的消融研究进行了全面的分析提出的方法。

视觉问答[2]旨在自动回答与给定图像内容相关的自然语言问题。它在实践中有着广泛的应用，如辅助盲人助盲、幼儿教育等，因此成为近年来的研究热点。Visual Question answer (VQA)的性能近年来有了很大的提高，这得益于三个方面的工作。

了解本专栏

关注