VQA: Visual Question Answering 视觉问答

论文:Antol S, Agrawal A, Lu J, et al. Vqa: Visual question answering[C]//Proceedings of the IEEE international conference on computer vision. 2015: 2425-2433.

摘要

我们提出了一个自由式和开放式的视觉问答(VQA)任务。通过给定一个图像和一段关于图像的自然语言,这个任务将提供一个精确的自然语言答案。这个任务可以映射到现实生活的场景中:比如说帮助视障人士,问题和答案都是开放性的。视觉问题有选择性的针对图像的不同区域,包括背景细节的底层文本。因此,在VQA上取得成功的系统比产生通用图像描述生成的系统需要对图像有更详细的理解和更复杂的推理。此外,VQA是非常容易评估的,因为许多开放式的答案只包含几个单词或者是一组封闭的答案,可以以多项选择题的形式给出。我们提供了一个包含25万图像、∼076万问题和10M答案(www.visualqa.org)的数据集,并讨论了它提供的信息。提供了大量的VQA基准模型,并与人类的表现进行了比较。

1.Introduction

我们正在见证多学科人工智能(AI)研究问题的新一轮兴奋。特别是,结合计算机视觉(CV)、自然语言处理(NLP)和知识表示与推理(KR)的图像和视频字幕的研究在过去的一年中显著增加了[13,7,9,32,21,19,45]。这种兴奋部分源于一种信念,即图像字幕等多学科任务是推动人工智能的一步。然而,目前的SOTA表明,对图像与单词n-gram统计数据配对的粗糙场景级理解足以生成合理的图像字幕,这表明图像字幕可能不像所预想的“AI-complete”。

是什么组成了一个吸引人的“AI-complete"任务?我们认为,为了产生下一代的人工智能算法,一个理想的任务应该

1.需要单个子域之外的多模态知识(如CV)

2.有一个明确定义的定量评估指标来跟踪进步

对于一些任务,如图像字幕,自动评价仍然是一个困难和开放的研究问题[43,10,18]

在本文中,我们介绍了自由形式和开放式的视觉问题回答(VQA)的任务。VQA系统将一个图像和一个关于图像的自由而开放式自然语言的问题作为输入,并生成一个自然语言的答案作为输出。这个目标驱动的任务适用于当视障用户[2]或智能分析师积极引出视觉信息时遇到的场景。问题如图1所示。

  

 通过Amazon Mechanical Turk为图片收集的自由形式的开放式问题的例子。请注意,需要常识和对场景的视觉理解来回答许多问题。

开放式问题需要一套潜在的大量人工智能能力来回答——细粒度识别(例如,“披萨上有什么样的奶酪?”),目标检测(例如,“有多少辆自行车?”(例如,“这个人在哭吗?”,“这是一个素食披萨吗?”)和常识性推理(例如,“这个人有20/20的视力吗?”、“这个人期待着陪伴吗?”").

开放式问题需要一套潜在的大量人工智能能力来回答——细粒度识别(例如,“披萨上有什么样的奶酪?”),目标检测(例如,“有多少辆自行车?”(例如,“这个人在哭吗?”,“这是一个素食披萨吗?”)和常识性推理(例如,“这个人有20/20的视力吗?”、“这个人期待着陪伴吗?”").

VQA[16,30,42,2]也可以自动进行量化评估,使有效跟踪任务的进展成为可能。

虽然许多问题的答案只是简单的“是”或“不是”,但确定正确答案的过程通常是很复杂的(例如,在图1中,“这个人有20/20的视力吗?”").

此外,由于关于图像的问题往往倾向于寻求特定的信息,简单的一到三个单词的答案对于许多问题就足够了。在这种情况下,我们可以很容易地通过它正确回答的问题的数量来评估所提出的算法。在本文中,我们提出了一个开放式的回答任务和一个多项选择任务[38,27]。与需要自由形式响应的开放答案任务不同,多项选择题任务只需要一个算法从一个预定义的可能答案列表中进行选择。

我们提供了一个大型数据集,其中包含来自MSCOCO数据集[26]的204,721张图像,以及一个新创建的抽象场景数据集[48,1],其中包含50,000个场景。MSCOCO数据集有图像描述不同和复杂的场景,有效地引出引人注目和多样化的问题。我们收集了一个新的“现实”抽象场景数据集,通过消除解析真实图像的需要,使研究只集中于VQA所需的高级推理。为每个图像或场景收集了三个问题。每个问题都由10个受试者来回答。该数据集包含超过76万个问题,大约有1000万个答案。

虽然开放式问题的使用提供了许多好处,但理解被问的问题的类型以及各种算法可能擅长回答哪种类型仍然是有用的。为此,我们分析了所提出的问题的类型和所提供的答案的类型。通过几次可视化,我们展示了VQA模型所提出的问题的惊人的多样性。我们还探讨了问题及其答案的信息内容与图像标题的不同。对于基线,我们提供了几种结合使用文本和SOTA视觉特性[23]的方法。作为VQA的提出者,我们将组织一年一度的挑战和相关的研讨会,讨论最先进的方法和最佳实践。

VQA提出了一系列丰富的挑战,其中许多挑战被视为自动图像理解和通用人工智能的皇冠。同时,它包括了CV、NLP和KR[4,6,25,29,3]社区在过去几十年中取得了重大进展的几个组成部分。VQA在推动SOTA和让社区开始在任务上取得进展提供了一个有吸引力的平衡。

2.Related Work 相关工作

VQA efforts  

最近的几篇论文已经开始研究视觉问题回答[16,30,42,2]。然而,与我们的工作不同的是,这些工作的数据集是相当有限的(有时是合成的)。例如,[30]只考虑那些答案来自一个预定义的包含16种基本颜色或894个对象类别的封闭世界的问题。[16]还考虑从固定的对象、属性、对象之间的关系等词汇表中生成的模板生成的问题。相比之下,我们提出的任务涉及开放的、自由形式的问题和答案。我们的目标是增加提供正确答案所需的知识和推理类型的多样性。为了成功完成这个更困难和不受约束的任务,我们的VQA数据集比[16,30]大两个数量级(>250,000和2591和1449张图像)。提出的VQA任务与其他相关工作有联系:[42]研究了视频和相应文本的联合解析,以回答两个数据集的查询,每个数据集包含15个视频剪辑。[2]使用众包工作人员来回答视障用户提出的关于视觉内容的问题。在同时工作中,[31]提出将问题的LSTM和CNN相结合生成答案——本文评估了一个类似的模型。[28]生成抽象的场景来捕捉与回答(纯文本)填空和视觉释义问题相关的视觉常识。[40]和[44]使用视觉信息来评估常识断言的合理性。[47]引入了一个包含10k幅图像的数据集,并提示说明一个场景的特定方面(例如,单个对象,接下来会发生什么)。在我们的工作的同时,[15]收集了COCO图像的中文(后来翻译成英文)的问题和答案。[37]使用COCO标题自动生成四种类型的问题(对象、数目、颜色、位置)。

基于文本的Q&A

  基于文本的问答在NLP和文本处理社区中是一个得到了很好的研究的问题(最近的例子是[12,11,46,38])。其他相关的文本任务还包括句子完成任务(例如,带有多项选择题答案的[38])。这些方法为VQA技术提供了灵感。文本中的一个关键问题是问题的背景。例如,[46]合成了基于对固定位置集中的参与者和对象的模拟的文本描述和问答对。VQA很自然地以图像为基础——需要同时理解文本(问题)和视觉(图像)。我们的问题是由人类产生的,这使得对常识性知识和复杂推理的需求更加必要。

描述视觉内容

与VQA相关的任务是图像标签[8,23]、图像字幕[24,14,34,7,13,45,9,19,32,21]和视频字幕[39,17],其中生成单词或句子来描述视觉内容。虽然这些任务同时需要视觉知识和语义知识,但标题通常可以是非特定的(例如,由[45]观察到的)。VQA中的问题需要关于图像的详细具体信息,而通用的图像标题很少有用处[2]。

其他视觉+语言任务

最近的几篇论文发现视觉和语言交叉任务比图像字幕更容易评估,如共同引用分辨率[22,36]或为特定对象的图像生成指向性语句[20,35],允许人类识别哪个对象被注意(例如,“红衬衫”,“左边的狗”)。虽然是任务驱动和具体的,一组有限的视觉概念(例如,颜色,位置)往往通过引用语句来捕获。正如我们所叙述的,视觉问答中视觉概念更丰富了。

3.VQA数据集收集

我们现在描述了视觉问题回答(VQA)数据集。我们首先描述用于收集问题的真实图像和抽象场景。接下来,我们将描述我们收集问题及其相应答案的过程。下面的部分提供了对收集到的问题和答案以及baseline结果的分析。

真实图像

我们使用了123,287张训练和验证图像和81,434张测试图像,它们来自于最新发布的Microsoft Common Objects in Context(MSCOCO)[26]数据集。收集MSCOCO数据集,寻找包含多个视觉目标和丰富的上下文信息的图像。鉴于这些图像的视觉复杂性,它们非常适合我们的VQA任务。我们收集的图像越多样化,所产生的问题和答案就越多样化、越全面和越有趣。

抽象场景

使用真实图像的VQA任务需要使用复杂且经常有噪声的视觉识别器。为了吸引有意探索VQA问题中的高级理性分析,而不是低级视觉任务的研究人员,我们创建了一个新的包含50K场景的抽象场景数据集[1,48,49,50]。该数据集包含20个“纸娃娃”人类模型[1],跨越性别、种族和年龄,有8种不同的表达方式。四肢是可调节的,以允许连续的姿势变化。这个数据集术可以用来描绘室内和室外的场景。该套装包含了100多个物体和31种不同姿势的动物。使用这个数据集可以创建更真实的场景(见图2的底部一行),比以前的论文[48,49,50]更接近地反映真实的图像。

 

问题的例子(黑色),当看图像时给出的答案(绿色),以及当不看图像(蓝色)时给出的许多数据集的代表性例子给出的答案。有关更多示例,请参阅补充材料。

数据集拆分

对于真实图像,我们遵循与MCCOCO数据集[26]相同的训练/val/测试分割策略(包括测试开发、测试标准、测试挑战、测试保留)。对于抽象场景,我们创建标准分割,将场景分别划分为20K/10K/20K,用于火车/val/测试分割。

标题

MSCOCO数据集[26,5]已经包含了所有图像的5个单句标题。我们还使用相同的用户界面1收集所有抽象场景收集了5个单一标题。

问题

收集有趣、多样化、恰当的问题是一个重大挑战。许多简单的问题可能只需要低级的计算机视觉知识,比如“猫是什么颜色的?”或者“现场有多少把椅子?”。然而,我们也想要一些需要场景常识的问题,比如“图片的动物发出什么声音?”。重要的是,问题还应该要求图像正确地回答,而不是仅仅使用常识性信息来回答,例如,图1中的“胡子是用什么做的?”。通过有各种各样的问题类型和困难,我们测试并评估了一些用来收集这些“有趣”问题的用户界面。具体来说,我们进行了试点研究,要求人类受试者就他们认为“蹒跚学步的孩子”、“外星人”或“智能机器人”难以回答的特定图像提出问题。我们发现,“智能机器人”的界面可以引出最有趣和最多样化的问题。如补充材料所示,我们最终的界面表示:“我们已经制造了一个智能机器人。它非常了解图像。它可以识别和命名所有的物体,它知道物体在哪里,它可以识别场景(例如,厨房,海滩),人们的表情和姿势,以及物体的属性(例如,物体的颜色,它们的纹理)。为了偏向一般的图像无关的问题,受试者被要求问需要图像回答的问题。我们可能能够衡量视觉理解和常识推理的持续进展。

对真实图像和抽象场景都使用了相同的用户界面。对于每个图像/场景,总共收集了来自独特的工作人员的三个问题。在写一个问题时,被试会被展示之前已经问过的问题,以增加问题的多样性。总的来说,数据集包含超过76万个问题。

(就是说用搜集问卷这样的方式搜集到了数据集)

答案

开放式的问题会产生一系列不同的可能的答案。对于许多问题,一个简单的“是”或“不”的回答就足够了。然而,其他的问题可能需要一个简短的短语。多个不同的答案也可能是正确的。例如,“白色”、“棕褐色”或“灰白”的答案可能都是对同一个问题的正确答案。人类受试者也可能不同意“正确”的答案,例如,一些人说“是”,而另一些人说“不”。为了处理这些差异,我们从独特的工人那里收集了每个问题的10个答案,同时也确保回答问题的工人不会问它。我们要求被试者提供“一个简短的短语,而不是一个完整的句子”的答案。实事求是,避免使用对话语言或插入你的意见。”除了回答问题,被试还被问到“你认为你能正确回答问题吗?”考虑到“不”、“也许”和“是”的选择。看第四部分以分析所提供的答案。

(这个地方让我看到17年的论文和现在方法之间的差距,此时的答案数据还主要是短语的形式,而不是通常的自然语句)

对于测试,我们提供了两种方式来回答这些问题:开放式回答多项选择题

对于开放答案任务,生成的答案使用以下准确性度量进行评估:

也就是说,如果至少有3个工作人员提供了该准确的答案,那么一个答案被认为是100%准确的。在比较之前,所有的回答都是小写的,数字转换为位数(原文中是number->digit,搜了一下,numer就是一般的数字,digit是我们通常理解的0101的数位),并删除标点符号和冠词。我们避免使用像Word2Vec[33]这样的软指标,因为它们经常将我们希望区分的单词组合在一起,比如“左”和“右”。

对于多项选择题任务,每个问题将创建18个候选答案。与开放答案任务一样,所选选项的准确性是根据提供该答案的人类受试者的数量计算的(按3计算,裁剪为1)(原文是scaled by 3 and clipped at 1 这里我的理解为准确性进行缩放,除以3,缩放到0-1之间)

 我们从四组答案中生成一组正确和错误的候选答案:正确:最常见的(十分之一)正确答案。可信:为了产生不正确但仍然可信的答案,我们让三个受试者在没有看到图像的情况下回答问题。如果没有找到三个唯一的答案,我们将使用词袋模型从最近邻的问题中收集额外的答案。使用这些答案有助于认识图像和常识,是回答问题的必要条件。流行:这是包括0个最受欢迎的答案。例如,这些图像是关于“是”、“不是”、“2”、“1”、“白色”、“3”、“红色”、“蓝色”、“4”、“绿色”的真实图像。包含最流行的答案使得算法更难从所提供的一组答案中推断出问题的类型,也就是说,仅仅因为答案中存在“是”和“不是”,仅仅知道这是一个“是”或“不是”的问题。随机答案:来自数据集中随机问题的正确答案。为了生成总共18个候选答案,我们首先找到正确的、可信的和流行的答案的并集。我们包括随机的答案,直到找到18个独特的答案。答案的顺序是随机的。多项选择题的例子就在补充部分中。

4.VQA数据集分析

在本节中,我们将对VQA训练数据集中的问题和答案进行分析。为了理解所问的问题和所提供的答案的类型,我们可视化了问题类型和答案的分布。我们还探讨了在没有图像时只使用常识性信息的情况下回答问题的频率。最后,我们分析了图像标题中所包含的信息是否足以回答这些问题。

该数据集包括614,163个问题和7,984,119个答案(包括有和不看图像的工人提供的答案),来自[26]的204,721张图像,15万个问题,5万个有195万个抽象场景的答案。

4.1 问题

问题的类型  根据英语生成的问题结构,我们可以根据开始问题的单词将问题聚成不同的类型。图3显示了在真实图像(左)和抽象场景(右)中,基于问题的前四个单词提出的问题的分布情况。

 

 问题的前四个单词随机抽取6000个真实图像问题和所有抽象场景的问题。单词的顺序从中心开始,然后向外辐射。弧线的长度与包含这个单词的问题的数量成正比。白色区域是指贡献太小而无法显示出来的单词。

有趣的是,对于真实的图像和抽象的场景,问题的分布都非常相似。这有助于证明,由抽象场景引出的问题类型与由真实图像引出的问题类型相似。有各种各样的问题类型,包括

“What is . . . ”, “Is there . . . ”, “How many. . . ”, and “Does the . . . 。定量上,不同类型问题的百分比如表3所示。图2显示了几个问题和答案。
长度。图4为问题长度的分布图。我们看到大多数问题的范围从4个到10个单词不等。

4.2 答案

典型答案。  图5(上)显示了几种问题类型的答案分布。我们可以看到许多问题类型,如“Is the. . . ”, “Are. . . ”,“Does. . . ”通常使用“是”和“否”作为回答。其他问题如“What is. . . ”“What

type. . . ”有丰富的回答。其他类型的问题,如 “What color. . . ”“Which. . . ”有更专门的回答,如颜色,或“左”和“右”。

 

 

当受试者给出图像(顶部)和没有给出图像(底部)时不同情况下给出的答案,一个60K个问题的随机样本中每个问题类型的答案分布。 

长度。大多数答案由一个单词组成。包含1、2或3个单词的答案分布的真实图像分别为89.32%、6.91%和2.74%,抽象场景的分布为90.51%、5.89%和2.49%。答案的简洁性并不令人惊讶,因为这些问题往往会从图像中引出特定的信息。这与一般描述整个图像的图像标题形成了对比,因此往往更长。我们答案的简短使自动评估成为可行。虽然人们可能很容易相信答案的简短会使问题变得更容易,但回想一下,它们都是人类提供的对开放式问题的开放式答案。这些问题通常需要复杂的推理才能得出这些看似简单的答案(见图2)。目前在我们的数据集中有23234个独特的一个词答案,3770个抽象场景。

‘Yes/No’ and ‘Number’ Answers     
许多问题都用“是”或“不是”(有时是“可能”)来回答——在真实图像和抽象场景中分别占38.37%和40.66%。在这些“是/否”的问题中,有一种对“是”的偏见——58.83%和55.86%的“是/否”的答案是对真实图像和抽象场景的“是”。诸如“多少……”这样的问题类型用数字回答——真实图像和抽象场景的12.31%和14.48%的问题是“数字”问题。
受试者信心
当被试者回答这些问题时,我们会问你:“你认为你能正确地回答这个问题吗?””图6为响应的分布。对于真实图像和抽象场景,大多数答案都被标记为混淆。

 对于真实图像和抽象场景(黑线),每个平均自信分数(0=不自信,1=自信)的问题数。7个或7个以上答案相同的问题比例相同,3-7个答案相同,小于3个答案相同的问题比例相同(颜色条)。

人类之间的协议。认知的自我判断是否对应于被试之间的答案一致?图6显示了(i)7个或以上,(ii)3个−7,或(iii)少于3个受试者对他们的平均信心分数(0=不一致,1=自信)的答案达成一致的问题的百分比。正如预期的那样,受试者之间的一致性随着信心的增加而增加。然而,即使所有的受试者都有信心,答案仍然可能会有所不同。这并不奇怪,因为有些答案可能会有所不同,但却有非常相似的含义,比如“happy”和“joyful”。

 4.3    常识知识

图像有必要吗?  

显然,有些问题有时可以仅用常识来正确地回答,而不需要一个图像,例如,“消防栓的颜色是什么?”。我们通过让三个受试者在没有看到图像的情况下回答这些问题来探索这个问题(见图2中蓝色的例子)。在表1(问题)中,我们显示了在所有问题、“是/否”问题和其他不是“是/否”的问题中,提供正确答案的问题的百分比。对于“是/否”的问题,人类受试者的反应优于偶然性。对于其他问题,人类只有21%的时间是正确的。这表明,理解视觉信息对VQA至关重要,而仅凭常识性信息是不够的。

(受试者在有图像情况下判断能力优于偶然随机判断,这可以为以后验证指标什么的提供思路)

为了显示有图像和没有图像提供的答案的定性差异,我们在图5(底部)中显示了各种问题类型的答案的分布。颜色、数字甚至“是/否”回答的分布是/没有图像的答案惊人的不同。

哪些问题需要常识?  为了确定需要常识性推理回答的问题,我们进行了两个AMT研究(一个子集10k问题VQA训练的真实图像)问主题——(i)问题是否需要知识外部的图像,和(ii)最年轻的年龄组可以回答问题——蹒跚学步(3-4),年幼的孩子(5-8),较大的孩子(9-12),青少年(13-17),成人(18+)。每个问题被展示给10名受试者。我们发现,在问题3个或以上的问题中,有47.43%的人对常识投了赞成票(18.14%:6个或以上)。在“人类年龄需要回答问题”的研究中,我们发现以下回答分布:蹒跚学步的儿童:15.3%,较小的儿童:39.7%,较大的儿童:28.4%,青少年:11.2%,成人:5.5%。表3显示了回答一个问题所需的平均年龄的细粒度细分。根据这两项研究,这两个常识问题的排名在很大程度上具有相关性(皮尔逊的等级相关性:0.58)。

4.4.标题VS问题

一般的图片标题是否提供了足够的信息来回答这些问题?表1(问题+标题)显示了当人类受试者被给予问题时,以及由人类提供的正确回答问题的标题描述图像的百分比,而不是图像。正如预期的那样,结果比只向人类展示这些问题时要好。然而,准确性明显低于受试者显示的实际图像。这表明,为了正确地回答这些问题,更深入的图像理解(超过了通常捕获的图像标题)是必要的。

我们相信VQA具有独特的优势,即推进“人工智能完成”问题的前沿,同时易于自动评估。鉴于社会最近取得的进展,我们认为,采取这种努力的时机已经成熟。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值