Visual Genome视觉基因组(3)

最新推荐文章于 2023-03-29 17:27:04 发布

Kivee123

最新推荐文章于 2023-03-29 17:27:04 发布

阅读量1.7k

点赞数

文章标签： scene understand

5.Datasets statistics and analysis

本部分介绍VG各个组件的统计特性和分析。特别地，我们检查了图片的分布、区域描述和问答对。我们分析了区域图和场景图，同时也将它们拆分成了物体、属性和关系分别研究每个部分。最后，我们描述了我们的规范化流水线和结果。

5.1 Image selection

VG数据集包含了108077张图片，来自于MS-COCO的328000张和YFCC100M的100百万张的交集。这使得VG的标注可以和YFCC以及MS-COCO的分割以及全图caption一起使用。这些图片都是由用户上传到Flickrr的真实世界的、非图像符号的图片。这些图片的最小宽度为72像素，最长宽度为1280像素，平均为500像素。我们会收集WordNet的同义词集好让我们的108077张图片可以使用和ImageNet一样的手段进行归类。VG图片可以归为972种ImageNet同义词集。注意物体、属性和关系可以分别被归类到超过18K种WordNet同义词集。图13展示了最平凡出现的一些image synsets，比如ski出现了2612张图。我们的数据集比较侧重于人的图片，这也可以从图13看出来，尽管这些图片又各大不相同。

5.2 Region description statistics

VG的一个基本组件是区域描述，每张图平均有50个具有bounding box和描述短语的区域。图14（图略）就是一个示例，我们在示意图中为了简单只标出了6个描述的bounding box，这些描述都很不同并且可能关注单个物体如“A bag”，有可能关注多个物体如“Man taking a photo of the elephants”。这些描述不仅包含了图片最明显的部分，比如“An elephant taking food from a woman”，同样也包含了背景信息，比如“Small buildings surrounded by trees”。
MS-COCO数据集在单一的场景层次描述符上生成variations表现很好。考虑MS-COCO数据集在一副相似图片上的三个句子，“there is a person petting a very large elephant”，“a person touching an elephant in front of a wall”，“a man in white shirt petting the cheek of an elephant”。这三个句子都是单一的场景层次的描述。相较而言，VG里的描述更强调图片里不同的区域也因此在语义上就不那么相似。为了保证描述的多样性，我们在描述之间使用BLEU分数阈值保证描述的差异。

在这里插入图片描述
区域描述必须要足够具体（specific）以描述单独的物体（如“A bag”），又必须要足够general以能够描述高层次的概念（如“A man being chased by a bear”）。定性地讲，我们指出能够覆盖图片的大部分区域的描述通常是比较general的，反之覆盖小部分的则是较为specific的描述。在图15(a)中，展示了区域的宽度（按图片的宽度进行了归一化）分布。可以看出大部分区域只有图片的10%到15%的宽度，但是也可以注意到有许多区域占了图片的100%宽度。这些区域经常包括了像“sky”，“ocean”，“snow”，“mountain”等等没有边际因此铺在整张图的宽度上的元素。图15(b)中我们看到在高度上也有类似的分布，不过100%的情况和宽度的分布就少很多了，因为很少有能垂直分布分布在整个图片高度上的物件。在所有的描述之中，只有一个或者两个是类似于MS-COCO的那种全局性描述。
在这里插入图片描述

图16是区域描述的短语长度的分布。平均长度大约5个单词，最小1个词，最多12个。在图18(a)中，我们画出了区域描述中最常见的短语（省略了stop words）。一些常见的视觉元素像“green grass”，“tree [in] distance”,“blue sky”等远比其它的更细微的元素（如fresh strawberry）出现得多。我们也在图18(b)中研究了具有更好的精度的描述，我们画出了描述中最常出现的词语（去掉了stop words）。我们看出VG中颜色出现的非常频繁，我们在MS-CCOO和Flickr 30K做了类似的统计，也发现了相似的规律。除了颜色，我们也像“man”和“tree”这样的常见物

最低0.47元/天解锁文章

Kivee123

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Visual Genome视觉基因组(3)

5.Datasets statistics and analysis 本部分介绍VG各个组件的统计特性和分析。特别地，我们检查了图片的分布、区域描述和问答对。我们分析了区域图和场景图，同时也将它们拆分成了物体、属性和关系分别研究每个部分。最后，我们描述了我们的规范化流水线和结果。5.1 Image selection VG数据集包含了108077张图片，来自于MS-COCO的328000...
复制链接

扫一扫