VQA2019
bxg1065283526
希望现在开始为时不晚,努力一定会有收货
展开
-
Counterfactual Samples Synthesizing for Robust Visual Question Answering论文笔记
Abstract尽管视觉问答(VQA)在过去几年中已经取得了令人瞩目的进步,但是当今的VQA模型倾向于捕获训练集中的表层语言相关性,而不能推广到具有不同QA分布的测试集中。为了减少语言偏见,最近的一些工作引入了一个辅助的仅问题模型,以规范化目标VQA模型的训练,并在VQA-CP上实现主导性能。但是,由于设计的复杂性,当前的方法无法为基于集成模型的模型配备理想VQA模型的两个必不可少的特征:1)视觉可解释的:模型在做出决策时应依赖正确的视觉区域。 2)对问题敏感:该模型应对所讨论的语言变化敏感。为此,我们原创 2020-05-28 22:59:51 · 1689 阅读 · 0 评论 -
Visual Question Answering: A Survey of Methods and Datasets
Abstract视觉问答(VQA)是一项具有挑战性的任务,已受到计算机视觉和自然语言处理社区的越来越多的关注。给定图像和自然语言的问题,就需要对图像的视觉元素和常识进行推理,以推断出正确的答案。在本调查的第一部分中,我们通过比较解决问题的现代方法来检查最新技术。我们通过它们将视觉和文本模态联系起来的机制对方法进行分类。特别是,我们研究了结合卷积神经网络和递归神经网络将图像和问题映射到公共特征空间的通用方法。我们还将讨论与结构化知识库交互的内存增强型和模块化体系结构。在本调查的第二部分,我们回顾了可...翻译 2020-05-22 17:50:52 · 3174 阅读 · 3 评论 -
An Analysis of Visual Question Answering Algorithms翻译
Abstract在视觉问答(VQA)中,算法必须回答关于图像的基于文本的问题。尽管自2014年末以来,VQA已经创建了多个数据集,但它们在内容和算法评估方式上都存在缺陷。结果,评估分数被夸大了,而且主要是通过回答更简单的问题来决定的,这使得比较不同的方法变得很困难。在本文中,我们使用一个名为任务驱动图像理解挑战(TDIUC)的新数据集来分析现有的VQA算法,该数据集有超过160万个问题,分为12个不同的类别。我们还引入了对给定图像没有意义的问题,以迫使VQA系统对图像内容进行推理。我们提出新的评估方案,翻译 2020-05-19 23:40:55 · 742 阅读 · 0 评论 -
Don’t Take the Easy Way Out: Ensemble Based Methods for Avoiding Known Dataset Biases论文笔记
Abstract最先进的模型通常利用数据中的表面模式,这些表面模式不能很好地推广到域外或对抗性设置中。例如,文本蕴涵模型经常了解特定的关键词暗示蕴涵,而与上下文无关,而视觉问答模型则学会预测原型答案,而无需考虑图像中的证据。在本文中,我们表明,如果我们对此类偏差有先验知识,则可以训练该模型对域移位更健壮。我们的方法分为两个阶段:我们(1)训练仅基于数据集偏差进行预测的朴素模型,以及(2)训练与朴素模型合而为一的稳健模型,以鼓励它专注于其他模式在更可能泛化的数据中。对具有域外测试集的五个数据集进行的实验表原创 2020-05-17 14:48:29 · 1490 阅读 · 0 评论 -
Don’t Just Assume; Look and Answer: Overcoming Priors for Visual Question Answering——论文阅读笔记
Abstract许多研究发现,今天的视觉问题回答(VQA)模型主要受训练数据中表面相关性的驱动,缺乏足够的图像基础。为了鼓励开发面向后者的模型,我们为VQA提出了一个新的环境,在这个环境中,对于每种类型的问题,训练集和测试集都有不同的答案先验分布。具体来说,我们提出了VQA v1和VQA v2数据集的新分割,我们称之为改变先验下的视觉问题回答(分别为VQA- CP v1和VQA-CP v2)。首先,我们在这种新的设置下评估了几个现有的VQA模型,并表明它们的性能与原始的VQA设置相比显著下降。第二,我们翻译 2020-05-14 14:32:43 · 17041 阅读 · 0 评论 -
Visual Question Answering as Reading Comprehension论文笔记
Abstract视觉问答(VQA)要求同时理解图像视觉内容和自然语言问题。在某些情况下,推理需要常识或一般知识的帮助,这些知识通常以文本的形式出现。当前的方法将视觉信息和文本特征共同嵌入到同一空间中。然而,如何模拟两种不同模式之间复杂的相互作用并不容易。与多模态特征融合的努力相反,本文提出用自然语言统一所有输入信息,从而将VQA问题转化为机器阅读理解问题。通过这种转换,不仅可以处理侧重于基于观...原创 2020-03-21 00:25:47 · 877 阅读 · 1 评论 -
2019年VQA论文整理
1、Attention 目前大部分工作都存在使用Attention机制,使用Attention主要是找到图片中与答案的相关的图片区域。 (1)Stacked Attention Networks for Image Question Answering...原创 2020-03-06 14:45:43 · 4341 阅读 · 3 评论