多模态融合(一)Deep Modular Co-Attention Networks for Visual Question Answering

最新推荐文章于 2023-12-31 01:38:18 发布

薛定猫的谔w

最新推荐文章于 2023-12-31 01:38:18 发布

阅读量4.5k

点赞数 6

分类专栏：多模态学习文章标签：深度学习

本文链接：https://blog.csdn.net/csdn_tclz/article/details/109700606

版权

摘要

在VQA任务中，设计一个有效的Co-attention模块来将问题中的关键词和图像中的关键区域联系起来是解决问题的核心。此前，大多数成功的联合注意力学习尝试都是通过使用浅层模型来实现的，深度联合注意模型与浅层模型相比几乎没有改善。(浅层模型，模态之间的交互不够充分)本文提出Modular Co-Attention Network (MCAN)，该网络由一系列Modular Co-Attention (MCA) layers级联组成。每个MCA结构包含图像模态、文本模态的自注意力（self-attention，SA）以及来自文本的并作用于图像模态的引导注意力（question-guided-attention of images，GA）这两种基础的attention单元。实验结果表明，MCAN的性能明显优于先前的先进技术。

引言

作者认为这些deep co-attention模型的瓶颈在于缺乏在各模态内同时建模较为密集的自注意力（模态内的self-attention力度不够）。受Transformer系列模型结构的启发，使用两个通用的attention单元（SA，建模模态内交互；GA，建模模态间交互，这里主要是word-to-region），通过SA和GA的组合，来构成模块化的共注意力结构。

方法

两种基本的attention单元SA与GA
在这里插入图片描述
两种attention的基础单元均具备multi-head attention来处理不同的输入。SA接收单模态X作为输入，输出针对X的重建特征Z；GA需要以双模态X、Y作输入，输出由Y引导的X的重建特征Z。

通过SA和GA进行组合可以得到的Modular Co-Atten

最低0.47元/天解锁文章

薛定猫的谔w

关注

6
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
多模态融合(一)Deep Modular Co-Attention Networks for Visual Question Answering

摘要在VQA任务中，设计一个有效的Co-attention模块来将问题中的关键词和图像中的关键区域联系起来是解决问题的核心。此前，大多数成功的联合注意力学习尝试都是通过使用浅层模型来实现的，深度联合注意模型与浅层模型相比几乎没有改善。(浅层模型，模态之间的交互不够充分)本文提出Modular Co-Attention Network (MCAN)，该网络由一系列Modular Co-Attention (MCA) layers级联组成。每个MCA结构包含图像模态、文本模态的自注意力（self-attent
复制链接

扫一扫