VQA
小镇大爱
这个作者很懒,什么都没留下…
展开
-
Multimodal Encoder-Decoder Attention Networks for Visual Question Answering论文笔记
这篇论文,作者提出了一个MEDA组成的MEDAN(多模态编码解码注意力网络)。作者发现在共同注意中,在学习图像区域的细粒度特征时,首先学习问题引导注意特征与首先学习自我注意特征是不同的,后者可以获得更好的图像区域表示。原因可能是前者有助于理解图像,而后者更像是一个基于对图像的理解模块。如上图所示,每个MEDA层都包括一个编码器模块和一个解码器模块(这里和transformer很像)。编...原创 2020-04-13 10:56:43 · 1786 阅读 · 1 评论 -
双线性注意力网络
一、摘要作者认为,多模式学习中的注意力网络提供了一种有效的方法,有选择的利用给定的视觉信息。但是,学习每对多模式输入通道的注意力分布计算的成本过高,为解决这个问题,共同注意为每个模式建立了两个单独的注意力分布,而忽略了多模式输入之间的交互。而在本文中作者提出了一种双线性注意力网络(BAN),它可以找到双线性注意力分布,来无缝地利用给定的视觉-语言信息。BAN考虑两组输入通道之间的双线性相互作用...原创 2020-01-06 15:15:02 · 3375 阅读 · 1 评论 -
OK-VQA数据集
《OK-VQA: A Visual Question Answering Benchmark Requiring External Knowledge》这篇文章中提出了articlenet网络来编码提取出来的文章,文章中也提出了OK-VQA数据集。回答该数据集的问题是一项有挑战性的任务。1、介绍VQA使得我们能够在视觉和语言的联合空间中学习推理,也能够进行场景理解。然而,大部分的VQA都...原创 2019-12-09 00:19:58 · 3486 阅读 · 4 评论 -
Multi-modality Latent Interaction Network for Visual Question Answering阅读笔记
一、摘要作者认为现有的研究关系的方法大多是单个视觉区域和单词之间的模型关系,不足以正确回答问题。因为从人类的角度来看,回答视觉问题需要理解视觉和语言信息的总结。在这篇论文中,作者提出了用于视觉问答的多模态潜在交互网络模型(MLI)来解决这个问题。该模型学习潜在视觉和语言摘要之间的交叉模式关系,将视觉区域和问题归纳为少量的潜在表示,从而避免建模无信息单个视觉-问题关系。潜在摘要之间的跨模态信息被...原创 2019-11-29 10:35:42 · 836 阅读 · 0 评论 -
Dynamic Fusion with Intra- and Inter-modality Attention Flow for Visual Question Answering 心得体会
论文链接:https://arxiv.org/abs/1812.05252这篇论文提出了一种新的多模态特征融合方法——模式内与模式间注意流的动态融合的视觉问题回答,它可以在视觉和语言模式之间传递动态信息,它能够很好地捕捉语言和视觉领域之间的高层交互,从而显着地提高了视觉问题回答的性能。近年来,视觉问答(VQA)的性能得到了很大的提高,原因主要有三点:提取到了很好的视觉和语言特征表示;V...原创 2019-11-17 19:20:26 · 482 阅读 · 1 评论 -
Multi-level Attention Networks for Visual Question Answering阅读笔记
Multi-level Attention Networks这个模型可以同时提取高级语义信息和空间信息,模型框架如下所示:该模型分为三个部分,分别是Semantic Attention、Context-aware Visual Attention、Joint Attention Learning。Semantic Attention语义注意的工作是从图像中挖掘重要的概念来回答问...原创 2019-10-28 00:39:52 · 884 阅读 · 4 评论