【多模态】《High-Order Attention Models for Visual Question Answering》论文阅读笔记

最新推荐文章于 2023-07-06 21:57:51 发布

CC‘s World

最新推荐文章于 2023-07-06 21:57:51 发布

阅读量413

点赞数

分类专栏：多模态文章标签：深度学习计算机视觉人工智能

本文链接：https://blog.csdn.net/qq_36643449/article/details/124954443

版权

多模态专栏收录该内容

25 篇文章 10 订阅

订阅专栏

该文章探讨了一种结合基于attention的多模态融合和基于双线性池化的融合方法在视觉问答（VQA）任务中的应用。模型结构简单而高效，整合了多种注意力机制和双线性池化技术，为多模态特征融合提供新思路。通过参考一系列相关论文，读者可以深入了解这两种融合策略如何增强VQA模型的表现。

摘要由CSDN通过智能技术生成

这篇文章做的是VQA。同时，这篇文章集成了基于attention的多模态融合方法和基于双线性池化的多模态融合方法，为做VQA等多模态任务提供了很好的思路。

模型比较简单，但高效。

简单之处在于模型的组件都在之前的博客中学习过，没有新的结构之类的。高效之处在于集成了基于attention的多模态融合方法和基于双线性池化的多模态融合方法。

基于attention的多模态融合方法可以参考以下几篇博客：
【多模态】《Stacked Attention Networks for Image Question Answering》论文阅读笔记
 【多模态】《Where To Look: Focus Regions for Visual Question
Answering》论文阅读笔记
 【多模态】《Show, Attend and Tell: Neural Image Caption Generation with Visual Attention》论文阅读笔记
 【多模态】《Visual7W: Grounded Question Answering in
Images》论文阅读笔记
 【多模态】《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》论文阅读笔记
 【多模态】Co-attending Free-form Regions and Detections with Multi-modal Multiplicativ Emb for VQA 论文阅读笔记
 【多模态】《Hierarchical Question-Image Co-Attention for Visual Question Answering》论文阅读笔记
 【多模态】《Dual Attention Networks for Multimodal Reasoning and Matching》论文阅读笔记

基于双线性池化的多模态融合方法可以参考以下几篇博客：
【多模态论文阅读】Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual
【多模态论文阅读】HADAMARD PRODUCT FOR LOW-RANK BILINEAR POOLING
【多模态论文阅读】Multi-modal Factorized Bilinear Pooling with Co-Attention Learning for Visual Question Answering
【多模态论文阅读】MUTAN: Multimodal Tucker Fusion for Visual Question Answering

模型结构为：
请添加图片描述
在这个大框架之下，首先对输入的视觉特征和文本特征进行编码，得到dense特征后可以进行attention，然后会得到视觉文本融合的特征或者 (视觉丰富过的，也可以是纯文本特征)文本特征和(文本丰富过，也可以是纯视觉特征)的视觉特征。如果是前者的话，就可以直接生成答案，如果是后者的话，可以通过一些双线性池化操作继续进行模态间的特征融合，当然，双线性池化操作也可以用作模态内的特征交叉。

CC‘s World

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
【多模态】《High-Order Attention Models for Visual Question Answering》论文阅读笔记

这篇文章做的是VQA。同时，这篇文章集成了基于attention的多模态融合方法和基于双线性池化的多模态融合方法，为做VQA等多模态任务提供了很好的思路。模型比较简单，但高效。简单之处在于模型的组件都在之前的博客中学习过，没有新的结构之类的。高效之处在于集成了基于attention的多模态融合方法和基于双线性池化的多模态融合方法。基于attention的多模态融合方法可以参考以下几篇博客：【多模态】《Stacked Attention Networks for Image Question Ans
复制链接

扫一扫

专栏目录