Visual Genome视觉基因组(4)

最新推荐文章于 2024-08-04 15:20:27 发布

Kivee123

最新推荐文章于 2024-08-04 15:20:27 发布

阅读量1.5k

点赞数

文章标签： scene understand

本文详细介绍了使用Visual Genome数据集进行的属性预测、关系预测、区域描述生成和问答对的实验，包括实验设置、模型训练和结果分析。实验表明，联合训练物体和属性能提升预测准确性，同时，关系预测任务由于类内变化性大而相对较难。VG数据集在区域描述和VQA任务中展现出优势，为深入理解图像提供了有价值的数据资源。

摘要由CSDN通过智能技术生成

6.Experiment

到现在为止，我们呈现了VG数据集并且分析它每个独立的部件。在有了丰富的信息之后，大量的感知和认知任务就可以被解决。在本章，我们的目的是提供一些使用VG的数据进行的一些实验baseline，这些都还没有被进一步研究。目标检测近年已经被很好的研究了。类似的，区域图和场景图也被展示出来他们可以用来改进语义图像检索的能力。因此我们专注在剩下的部分，属性、关系、区域描述和问答对。
在6.1节，我们展示两个在属性预测方面的实验结果。首先，我们将属性和物体独立看待，并且为每个属性训练一个分类器。第二个实验中，我们联合地训练物体和属性分类器，从而对物体-属性对进行预测。
在6.2节，我们展示了两个在关系预测方面的实验。第一个实验中，我们的目的是预测两个物体之间的predicate，比如预测kicking或者wearing。实验和现有的动作识别方面的工作类似。第二个实验中，我们通过联合地对物体和关系进行识别（如预测kicking(man,ball)）来对关系进行研究；我们展示出这个任务困难性，因为relationship的外观的高度变化性（比如ball可能是on the ground有可能是mid-air above a man）。这些实验是研究物体的空间关系和推导人与物体之间关系的任务的进一步泛化。
在6.3中，我们展示了region caption的任务，这和image caption很接近，但是两个任务的结果便可以直接进行比较，因为region caption都是短而不全的句子。我们训练一个目前state-of-the-art的image caption生成器，分别是在(1)我们的数据集上以生成区域描述(2)Flickr20K上以生成句子描述。为了比较两种训练手段的结果，我们用简单的模板将区域描转换为完整的句子。为了得到一个更鲁棒的评价，我们用人工对生成的描述进行验证。
最后在6.4节中，我们进行了VQA的实验，给模型图片和问题，模型要得到一个答案。

6.1 Attribute prediction

属性在计算机视觉中变得越来越重要，因为他们为不同的问题提供了高层次的语义线索并且可以对图片有一个更深的理解。我们可以通过属性展示properties的变化性，比如形状（sliced），功能（decorative），情绪（angry）甚至意图（helping）。为了区别相似的物体，这要求更细粒度的分类。而通过与已知类别共享的属性来描述没有见过的类别则被叫做zero-shot learning。VG是最大的属性数据集，平均每张图有26个属性，总共2.8百万个属性。
Setup.两个实验中，我们都专注与数据集中最常见的100个属性。我们只只使用出现了至少100次并且至少在一张图中有100个属性中的1个的那些物体。两个实验我们都用类似的数据预处理流水线啊。首先，小写（lowercase），提取主干（lemmatize），去掉空格。因为每个属性类别的样本数目都不一样，我们在每个类别里随机采样了500个样本，少于500个的话就全要了。
我们最后总共得到了50000个属性个体和43000个物体-属性对。我们使用80%的图片用于训练，验证集合测试集分别10%。因为每张图片都有相同数目的样本，因此在属性本身上面差不多也是80%-10%-10%的划分。实验的输入数据是与每个属性相关的物体的对应的bounding
box的裁剪的那一部分。
我们通过使用CNN学习到的特征训练一个属性预测器。具体来说，我们使用的是在ImageNet上预训练的VGG-16，然后在两个实验中用50000个属性和43000个物体-属性对进行finetune。我们修改了网络，全连接层的学习率是其它层的10倍，从而减小了收敛时间。我们用finetune之后的特征，训练了100个SVM来对每个属性进行预测，因此对于一个bounding box我们可能输出多个属性结果。第二个实验中我们还会输出物体的类别。
Results.表6展示了实验的结果。在第一个属性预测的实验中，训练700轮之后收敛了，top-1和top-5的准确率分别是18.97%和43.11%。因此我们可以看出属性和物体类别一样也是有视觉区分性的。第二个实验还预测了物体类别，400轮训练后结束，准确率如表。实验二相对于实验一有所提升，这表明一些属性只是会在某些物体上出现。通过联合训练，我们增大了类间的差异，使得分类更容易了。
图35(a)展示了一个实验一的例子。一般来说，模型善于将物体和他们最显著的特征联系起来，比如animal和stuffed，elephant和grazing。但是众包的ground truth有时不完全包含所有的属性，因此模型就会对一些实际正确的预测惩罚。比如white stuffed animal是正确的，但评价机制却认为是不正确的。
图35(b)展示了实验二中的一些例子。尽管第二行的结果可能是对的，但为了评价的一致性，我们还是把它们记作错误。举个例子，“green grass”可能主观上是对的，即便标注是“brown grass”。对于物体不是明显可见，只有大概轮廓的情况，我们的模型无法精确地预测物体的类比和其属性。比如我们的模型会把“flying bird”当做“black jacket”。
5.4节中的属性组成的团清楚地展示了通过对属性的学习可以帮助我们确定物体的类比。这个实验进一步验证了这个insight，因为通过物体和属性的联合学习是可以增强属性预测的能力的。
在这里插入图片描述

6.2 Relationship prediction

物体是图片的核心组成部件，关系则将它们放到了上下文里面。关系可以帮助区分含有相同物体的不同图片，比如“a man riding a bike”和“a man falling off a bike”都有man和bike，但是riding和falling off完全改变了我们对两张图片的认识。VG是已知最大的关系数据集，总共有2.3百万个关系，平均每张图有21个关系。
Setup.两个实验的setup和在属性上做的实验是类似的。我们还是关注top-100的最频繁的关系，预处理也是lowercase、lemmatize和去空格。最后得到约34000种不一样的关系类型和27000中不一样的sub-rel-obj的三元组用于训练、验证和测试。实验的输入数据是subject和object的union box对于的图片区域。我们用和6.1相同的训练策略对VGG-16进行finetune。
Results.总的来说，我们发现关系的视觉区分性不强，但也足以让我们的区分模型有效地进行学习。表7就是两个实验的结果。对于关系分类，训练了800轮之后收敛了，top-1和top-5准确率分别为8.74%和29.69%。和属性预测不一样，关系预测的准确率低很一些，因为许多关系的类内变化性太大了。第二个实验联合预测关系和与之相关的两个物体类别，450轮之后收敛，top-1和top-5准确率分别为25.83%和65.57%。和属性预测一样，物体分类有助于关系预测。一些关系只会发生在一些特定的物体之间，比如drive只会出现在person上，而不可能与dog、chair等有关。
图36(a)展示了关系分类的一些例子。一般来讲，模型会将物体类别和特定的关系联系起来（比如animal和eating、drinking，bikes和riding，kids和playing）。
图36(b)展示了一些联合进行物体和关系分类的例子。模型可以预测图片最显著的特征（如boat in water），但无法区分不同的物体（如boy和woman，car和bus）。
在这里插入图片描述

6.3 Generating region descriptions

生成图片的句子描述在计算机视觉任务中逐渐变得流行起来，但是目前的state-of-the-art的模型无法描述一幅图片里所有的所有的不同事件，而是仅仅给出一个高层次的summary。本节，我们测试了state-of-the-art的模型在图片的细节上可以caption得有多好。两个实验我们都使用了NeuralTalk模型，因为该模型不仅是state-of-the-art的，而且在产生短描述上足够鲁棒。我们在VG数据集上训练NeuralTalk进行区域描述，在Flickr30K上训练进行完整的句子描述。其他数据集上训练的模型会产生完整的句子，因此在我们的数据集上不具备可比性，因此我们将我们的模型使用预先定义的模板将所有的区域描述转换为了完整的句子。
Setup.为了训练，我们首先对区域描述进行预处理：去除所有非字母和数字的符号、小写、去掉空格。我们一共有5406939个区域描述，最后得到了用于训练的只有3784857个，验证和测试各811040个。我们通过预训练的VGG-16网络输入区域的bounding box得到每个区域的4096维特征向量。然后使用NeuralTalk模型去训练一个产生区域描述的LSTM。我们的采用的梯度下降策略为RMSPOP，学习率设为0.001,训练了4天模型收敛。
测试时，我们将ground truth的bounding box裁剪下来通过VGG-16得到4096维的特征，然后将这个特征输入NueralTalk模型从而得到区域描述。
Results.表8展示了实验的结果。我们分别计算了我们模型生成的描述和ground truth之间的BLEU分数、CIDEr分数以及METEOR分数。在所有情况下，在VG上训练的模型都表现更好。此外我们还让众包工作人员对结果进行正确性的判断来得到一个准确率。在VG上训练的模型的准确率的大幅上升主要是由于VG的specificity。我们的区域描述更短并且只覆盖了一个小的图片区域。相较而言，Flickr30K数据集是对于那些在不同区域有着许多事件的整张图片的一个generic的描述。在VG上训练的模型可以对某些区域生成描述，而不是对整张图片生成summary。当然表8中的准确率都低是因为目前的模型无法在复杂的图片上进行推理。
图37展示了一些区域描述的例子。因为许多样本都是短描述，所以预测的描述也是短的，尽管这会造成模型无法具有多个物体或者有区分的同类物体生成更多的描述短语。尽管我们使用了简单的模板将区域描述转换为句子，未来的工作可以探索更聪明的结合区域描述的手段。

6.4 Question Answering

VG是目前最大的VQA数据集，有超过1.7百万个问答对，平均每张图片有17个。回答问题需要对图片有一个比generic caption更深的理解。问答可以包含细粒度的识别（如What is the breed of the dog？），物体检测（如Where is the kite in the image？），动作识别（如What is the man doing？），以知识为基础的推理（如Is this glass full？），常识性的推理（如What street will we be on if we turn right？）。
通过使用VG中场景图的细节标注，我们想象构建一个可以回答大量视觉问题的智能模型。尽管我们鼓励智能模型的构建，在本论文中我们只提供了一些baseline的结果来帮助别人和他们的模型进行比较。
Setup.我们将QA对划分为了训练集（60%）和测试集（40%），并且我们保证不会有图片同时出现在两个集合中。我们用答案频率实现了一个简单的baseline模型，这个模型会统计训练集中top-k个最常见的答案作为所有测试问题答案的预测，我们把k设为100,500和1000，我们允许一个模型做出k个不同的预测。当对于一个QA如果top-k个答案中有一个是符合ground truth的时候我们认为模型的结果就是正确的，我们统计了所有的测试集上的QA的准确率。这种评价手段在答案比较短的时候效果比较好，尤其是当一个词的时候。但是，当答案比较长的时候就容易出问题。我们也报告了人的准确率。
在这里插入图片描述
Results.表9展示了开放的VQA任务的性能，这些baseline显示出了答案的一个长尾分布，这在现有的QA数据集里很常见。TOP-100,500,1000频繁的答案，只包含了41.1%，57.3%和64.1%的答案。相较而言，VQA（Antol et al,2015）中分别为63%,75%he 80%。Where和Why问题倾向于包含空间和常识推理，因此性能表现差。

7.Future applications and directions

我们分析了VG数据集的每个独立组件，并且给每个独立任务像属性分类、关系分类、描述生成和问答做了baseline的实验。我们的数据集显然还可以用于更多的任务，下面就是一些介绍。
Dense image captioning.有许多尝试用一句话描述一整张图片的caption论文，但是这些caption不能完全地描述图片场景的每个部分。利用VG可以对这个应用做的一个很自然的延伸就是构建可以描述场景的每个部分的密集caption模型。
Visual question answering.尽管VQA在作为一个独立的任务被研究，我们引入了一个可以将所有问答和描述以及场景图结合的数据集。未来可以构建充分使用VG的各个组件的监督模型来解决VQA问题。
Image understanding.尽管有越来越多image caption和VQA的模型出现，但很少有研究去提出更为全面的评价手段来独立到底这些模型表现有多好。这些模型现在往往使用BLEU,CIDEr，METEOR或者其他类似的指标，它们都无法有效地度量模型对图片的理解的好坏。VG的场景图可以作为一种度量图片理解的手段，描述和答案都可以与一张图片的场景图对比来进行评价。
Relationship extraction.关系抽取在信息检索和自然语言处理里被研究得很多。VG是第一个大规模的视觉关系数据集，这个数据集可以被用在训练提取图片中的视觉关系，VG的物体之间的interactions也可以被用来做动作识别的研究或者空间定向的研究。
**Semantic image retrieval.**有工作表明场景图可以用于提高语义检索的性能。未来可以探索结合区域描述和区域图的方法，也可以研究基于注意力的方法，就是说由一个query确定的感兴趣区域可以在检索到的图像中被定位。
Completing the Set of Annotations. 尽管VG是标注得最密集的用于认知图像理解的视觉数据集，它仍然不是完整的。在大多数图片中，它没有穷尽所有的属性和关系。这就会造成两个新问题。在计算机视觉中，我们需要发展新的评价度量，它不会因为标注的不完整性对模型惩罚。在人机的交互方面，我们需要设计新的接口和工作流水线来激励工作人员标注视觉常识。