![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
VQA
小有名气的可爱鬼
这个作者很懒,什么都没留下…
展开
-
RUBi: Reducing Unimodal Biases in Visual Question Answering
1. 文章概要目录1. 文章概要2. 文章介绍3. 相关工作4. Reducing Unimodal Biases Approach(RUBI)4.1 RUBi learning strategy5. 实验文章下载:作者认为,现有的VQA模型都是使用的单模态偏见(unimodal biases)来获得正确答案,而没有使用图像信息。一旦使用数据集之外的数据,模型的...原创 2020-04-28 14:20:09 · 842 阅读 · 0 评论 -
Visual Question Answering as Reading Comprehension 论文解读
视觉问答VQA需要同时理解图像视觉内容和自然语言问题。有时,推理过程还需要文本中的常识或者先验知识的帮助。目前的方法主要是将视觉信息和文本特征嵌入到相同的空间中。然而,怎样建立两种不同模态的交互并不容易。不同于多模态特征融合的方式,这篇文章中,作者提出用自然语言统一所有的输入信息,将VQA转换为机器阅读理解问题。利用这种变换,我们不仅能处理VQA数据集中的目标观测问题,也能够处理需要大量外部知识的VQA。提出两种不同类型的模型分别处理开放式VQA和多选式VQA。原创 2020-04-14 13:06:56 · 401 阅读 · 0 评论 -
Towards VQA Models That Can Read 论文解说
VQA取得了巨大的进步。但是今天的VQA模型在需要阅读的问题上惨败!这很讽刺,因为这些正是视力受损的用户经常向他们的辅助设备提出的问题。研究表明,视障用户对周围环境图像提出的主要问题包括阅读图像中的文本。但是现有的VQA模型不能读取!该文朝着解决这个问题迈出了第一步。主要贡献:(1)引入了一个新的数据集(TextVQA),其中包含需要模型读取的问题和对要回答的图像中的文本进行推理的问题。(2)提出了“看、读、推理和回答”(LoRRA):一种新型的模型架构,回答问题时在OCR系统的输出上明确的进行推理。原创 2020-04-13 11:37:14 · 1006 阅读 · 0 评论 -
LXMERT: Learning Cross-Modality Encoder Representations from Transformers 论文笔记
视觉 - 语言推理需要对视觉概念、语言语义有一定的理解,尤其还需要能在这两个模态之间进行对齐、找到关系。作者们提出了 LXMERT 框架来学习这些语言和视觉的联系,它含有三个编码器:一个对象关系编码器、一个语言编码器和一个跨模态编码器。为了让模型具备联系视觉和语言语义的能力,使用了 5 个不同的有代表性的预训练任务:(1)掩码交叉模态语言建模;(2)通过ROI特征回归进行掩码目标预测;(3)通过检测到的标签分类进行掩蔽目标预测;(4)交叉模态匹配;(5)图像问题解答。这些多模态预训练既可以帮助学习同一个原创 2020-02-16 16:32:29 · 2997 阅读 · 1 评论 -
Learning Conditioned Graph Structures for Interpretable Visual Question Answering论文解读
文章目录1.背景论文链接: https://arxiv.org/abs/1806.07243v1.1.背景最近的计算机视觉工作一直在探索更高层次的图像表示,特别是使用对象检测器和基于图形的结构来更好地理解语义和空间图像理解。尽管如此,很少有人依赖于能够捕捉语义和空间关系的高级图像表示。在本文中,我们提出了一种新的基于图形的视觉问答方法。我们的方法结合了图形学习器模块,它学习输入图像的问题特定...原创 2020-03-01 17:07:41 · 1026 阅读 · 0 评论 -
Out of the Box: Reasoning with Graph ConvolutionNets for Factual Visual Question Answering论文解读
对于大多数的VQA来说,可以直接从图像内容获取到问题的答案无须推理过程,使用一般知识进行推理仍然是算法挑战。为了推进这方面的研究,最近引入了一种新的“基于事实的”视觉问题回答(FVQA)任务,以及一个附带的数据集,其中包含图像,带有相应答案的问题以及从三个不同来源提取的事实的知识库(KB):WebChild ,DBPedia 和ConceptNet 。与经典的VQA数据集不同,FVQA数据集中的问题是通过对图像中的信息和知识库中的事实的集体分析来回答的。每个问题都映射到一个包含问题答案的支持事实。因此,回答原创 2020-02-23 16:39:19 · 855 阅读 · 1 评论 -
Learning Visual Knowledge Memory Networks for Visual Question Answering论文解读
该论文提出了视觉知识记忆网络(VKMN)来将结构化知识与视觉特征融合进端对端的学习框架。本文的主要贡献是:(1)我们提出了VKMN,一个简单而有效的端到端可训练框架,它继承了基于注意力的方法和基于联合嵌入的方法的优点,同时避免了当前基于知识的解决方案的知识的不准确限制。(2)我们建立了一个视觉问题特定的知识库,它不包含像Freebase这样的通用知识库的无关知识条目(3)我们对VQA v1进行了大量的实验.0和v2.0基准数据集,并表明所提出的方法可以达到竞争准确性,同时在知识推理相关问题上原创 2020-02-09 15:58:24 · 365 阅读 · 0 评论 -
Transfer Learning via Unsupervised Task Discovery for Visual Question Answering论文解读
人类看到和理解的视觉场景是基于不同视觉概念。例如,从一张椅子的单一图像中,人类毫不费力地识别出不同的视觉概念,如它的颜色、材料等。 风格、用途等。这种不同的视觉概念可能与自然语言中定义每个视觉概念的识别任务的不同问题有关 (例如,这把椅子是什么颜色的?)对于VQA的方法依赖于一个大规模的图像、问题和答案三重数据集,并训练一个以图像和问题为输入并产生答案的分类器。但这个方向有一个关键的限制,即数据集中的图像、问题和答案三重是学习视觉概念的唯一来源。人类根据从书本、图片、视频和与目标问题不一定相关的个人经验原创 2020-01-20 13:37:03 · 417 阅读 · 0 评论 -
Improved Fusion of Visual and Language Representations by Dense Symmetric Co-Attention for VQA 阅读笔记
解决VQA(Visual Question Answering)问题的关键在于如何从图片和问题中提取有用的特征, 并将二者进行有效地融合。目前对于VQA问题的研究路线分为两个主要部分, 一是更好的attention机制, 二是改进的特征融合方式。一般而言这两部分分属于模型独立模块, 而本文认为两者是有联系的, 应该进行有机的结合, 因而提出了一种新的co-attention机制来改善视觉特征与语言...原创 2020-01-17 23:38:16 · 420 阅读 · 1 评论 -
Multi-modality Latent Interaction Network for Visual Question Answering论文解读
作者认为现有的研究关系的方法大多是单个视觉区域和单词之间的模型关系,这不足以正确回答这个问题。但从人类的角度来看,回答视觉问题需要理解视觉和语言信息的概要。本文提出了多模态潜交互模块(MLI)来解决这一问题。该模块学习潜在的视觉和语言概要之间的跨模态关系,其中将视觉区域和问题归纳为少量的潜在表征,以避免建模无信息单个视觉-问题关系。潜在的概要之间的跨模态信息被传播以从两种模态中融合有价值的信息,并且用于更新视觉和文字特征。这样的MLI模块可以被堆叠以建模两种模态之间的复杂和潜在关系。原创 2019-12-16 21:41:37 · 466 阅读 · 0 评论 -
Relation-Aware Graph Attention Network for Visual Question Answering论文解读
我们的工作不同于现有的VQA系统(并与之兼容)。它以一个新的维度为中心:使用问题自适应的对象间关系丰富图像表示,以提高VQA性能。我们的工作有三方面的贡献:1、我们提出了一种新的基于图形的关系编码器,用于通过图形注意网络学习视觉对象之间的显式和隐式关系。2、学习到的关系是问题自适应的,这意味着它们可以动态地捕捉与每个问题最相关的视觉对象关系。3、我们表明,我们的ReGAT模型是一种通用方法,可以用于改进VQA 2.0数据集上最先进的VQA模型。我们的模型还在更具挑战性的VQA-CP v2数据集上原创 2019-11-18 17:08:21 · 735 阅读 · 1 评论 -
Exploring Visual Relationship for Image Captioning论文笔记
本文提出了一种新的设计方案,在基于注意的编解码框架下,探讨图像描述对象之间的联系。具体来说,我们提出了图形卷积网络和长期短期内存(称为gcn-lstm)架构,这种新颖的方法将语义和空间对象关系整合到图像编码器中。从技术上讲,我们根据图像中检测到的对象的空间和语义联系来构建关系图形。然后,通过GCN利用图形结构,对每个区域的表示进行细化,得到区域级关系感知特征,然后将其注入到attention lstm中生成句子。原创 2019-10-30 10:21:04 · 1045 阅读 · 1 评论