Visual Genome视觉基因组(3)

5.Datasets statistics and analysis

  本部分介绍VG各个组件的统计特性和分析。特别地,我们检查了图片的分布、区域描述和问答对。我们分析了区域图和场景图,同时也将它们拆分成了物体、属性和关系分别研究每个部分。最后,我们描述了我们的规范化流水线和结果。

5.1 Image selection

  VG数据集包含了108077张图片,来自于MS-COCO的328000张和YFCC100M的100百万张的交集。这使得VG的标注可以和YFCC以及MS-COCO的分割以及全图caption一起使用。这些图片都是由用户上传到Flickrr的真实世界的、非图像符号的图片。这些图片的最小宽度为72像素,最长宽度为1280像素,平均为500像素。我们会收集WordNet的同义词集好让我们的108077张图片可以使用和ImageNet一样的手段进行归类。VG图片可以归为972种ImageNet同义词集。注意物体、属性和关系可以分别被归类到超过18K种WordNet同义词集。图13展示了最平凡出现的一些image synsets,比如ski出现了2612张图。我们的数据集比较侧重于人的图片,这也可以从图13看出来,尽管这些图片又各大不相同。

5.2 Region description statistics

  VG的一个基本组件是区域描述,每张图平均有50个具有bounding box和描述短语的区域。图14(图略)就是一个示例,我们在示意图中为了简单只标出了6个描述的bounding box,这些描述都很不同并且可能关注单个物体如“A bag”,有可能关注多个物体如“Man taking a photo of the elephants”。这些描述不仅包含了图片最明显的部分,比如“An elephant taking food from a woman”,同样也包含了背景信息,比如“Small buildings surrounded by trees”。
  MS-COCO数据集在单一的场景层次描述符上生成variations表现很好。考虑MS-COCO数据集在一副相似图片上的三个句子,“there is a person petting a very large elephant”,“a person touching an elephant in front of a wall”,“a man in white shirt petting the cheek of an elephant”。这三个句子都是单一的场景层次的描述。相较而言,VG里的描述更强调图片里不同的区域也因此在语义上就不那么相似。为了保证描述的多样性,我们在描述之间使用BLEU分数阈值保证描述的差异。

在这里插入图片描述
  区域描述必须要足够具体(specific)以描述单独的物体(如“A bag”),又必须要足够general以能够描述高层次的概念(如“A man being chased by a bear”)。定性地讲,我们指出能够覆盖图片的大部分区域的描述通常是比较general的,反之覆盖小部分的则是较为specific的描述。在图15(a)中,展示了区域的宽度(按图片的宽度进行了归一化)分布。可以看出大部分区域只有图片的10%到15%的宽度,但是也可以注意到有许多区域占了图片的100%宽度。这些区域经常包括了像“sky”,“ocean”,“snow”,“mountain”等等没有边际因此铺在整张图的宽度上的元素。图15(b)中我们看到在高度上也有类似的分布,不过100%的情况和宽度的分布就少很多了,因为很少有能垂直分布分布在整个图片高度上的物件。在所有的描述之中,只有一个或者两个是类似于MS-COCO的那种全局性描述。
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
  图16是区域描述的短语长度的分布。平均长度大约5个单词,最小1个词,最多12个。在图18(a)中,我们画出了区域描述中最常见的短语(省略了stop words)。一些常见的视觉元素像“green grass”,“tree [in] distance”,“blue sky”等远比其它的更细微的元素(如fresh strawberry)出现得多。我们也在图18(b)中研究了具有更好的精度的描述,我们画出了描述中最常出现的词语(去掉了stop words)。我们看出VG中颜色出现的非常频繁,我们在MS-CCOO和Flickr 30K做了类似的统计,也发现了相似的规律。除了颜色,我们也像“man”和“tree”这样的常见物

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值