![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
VQA
文章平均质量分 71
这样子的话
Day Day Up
展开
-
Image Question Answering using Convolutional Neural Network with Dynamic Parameter Prediction
这篇文章的主要贡献: 1.采用CNNc+DPN处理ImageQA任务,DPN的参数根据给定问题动态生成。 2.采用一个Hash trick对参数降维 3.通过在一个大的文本集上fine-tune GRU,提升网路的泛化性能 4.首次同时在DAQUAR,COCO-QA,VQA上进行实验 论文整体框架: 这个网路主要由两个部分组成:CNN和Dynamic Par原创 2017-03-20 21:25:23 · 1364 阅读 · 0 评论 -
Stacked Attention Networks for Image Question Answering
这篇文章提出SAN模型,SAN将问题作为一个查询条件,在图中寻找与问题相关的区域,主要贡献: 1.提出SAN模型处理VQA任务; 2.在四个数据集上验证SAN模型的性能; 3.详细的分析了SAN不同层的输出,以及证明了多次执行SAN能有效的在图中注意到与问题相关的区域。 模型框架: 整个模型分为三个模块:Image Model,Question Model,St原创 2017-03-29 23:06:41 · 2210 阅读 · 1 评论 -
VQA数据集及评价方法介绍
VQA(Visual Question Answering)是一项涉及到计算机视觉和自然语言处理的视觉任务,简单介绍下当前VQA所使用的数据集: 1. DQAUAR DAQUAR(The DAtaset for QUestion Answering on Real-world images)是最早提出的VQA数据集,也是最小的VQA数据集。DAQUAR中的图像来自于NYU-D原创 2017-03-12 21:22:57 · 7034 阅读 · 8 评论 -
Exploring Models and Data for Image Question Answering
这篇文章的主要Contributions: 1.提出一个end-to-end QA模型,这个模型利用visual semantic embedding 连接CNN,RNN. 2.提出一个自动问题生成算法,这个算法可以将描述图像的句子转化为问题 3.基于以上算法生成COCO-QA数据集 COCO-QA数据的Answer都是一个单词,所以可以将基于COCO-QA的VQA当成是一个分类问题原创 2017-03-14 17:05:05 · 1010 阅读 · 0 评论 -
Hierarchical Question-Image Co-Attention for Visual Question Answering
当前基于视觉注意的一些VQA方法主要关注:”where to look”或者 visual attention。本文认为基于问题的attention “which word to listen to ” 或者question attenion也相当重要。基于这个动机,文中提出一种多模注意模型:Co-attention + Question Hierarchy。 Co-attention:这个部原创 2017-04-11 19:43:33 · 2764 阅读 · 0 评论 -
Ask Me Anything:Free-form Visual Question Answering Based on Knowledge from External Sources
这篇文章将自动生成的图像描述与一个外部的Knowledge bases相融合,对问题进行预测。图像描述生成主要来自于image captions集,并且从Knowledge bases提取基于文本的外部知识。框架图: 给定图像-问答对,首先利用CNN提取图像的Attributes集合。这些Attributes涉及范围很广,包括object,scenes,action,modifier原创 2017-03-16 22:23:26 · 1433 阅读 · 0 评论 -
ABC-CNN: An Attention Based Convolutional Neural Network for Visual Question Answering
VQA的相关应用及其挑战: VQA is of great importance to many applications, including image retrieval, early education, and navigation for blind people as it provides user-specific information through the unders原创 2017-04-06 16:48:21 · 1872 阅读 · 0 评论 -
Neural Module Networks
这篇文章旨在开发深度网络的表征能力,并且合成question的语言结构。首先是利用语义解析器分析每个问题,并且利用每个问题的分析结果决定question基本的组成单元(注意、分类等),同时也决定这些单元之间的关系。在Figure 1 中,首先利用CNN生成注意,目标为dog,并且将结果输入到location describer中。低层结构中的各模块之间传递的信息可能是raw image featur原创 2017-04-19 22:36:32 · 3002 阅读 · 0 评论 -
Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answering
文中提到当前一些处理VQA任务的方法都是基于处理Image Captioning任务的方法,具体就是采用卷积递归神经网络,但是这种方法不能很好的模拟spatial inference。文中提出Spatial Memory Network用于处理VQA任务。Spatial Memory Network存储图像不同区域的神经激活单元到网络的记忆中,并且根据问题选择与其相关的图像区域。 本文主要贡献原创 2017-04-17 14:24:16 · 1282 阅读 · 0 评论