Visual Genome视觉基因组(1)

Visual Genome

Connecting Language and Vision Using Crowdsourced Dense Image Annotations
数据集网址

摘要:
  尽管在诸如图像分类等感知任务上取得了进展,计算机在诸如图像描述和问题回答等认知任务上仍然表现不佳。认知是任务的核心,认知不仅涉及了识别,而且包括对我们的视觉世界进行推理。然而,用于处理用于认知任务的图像中的丰富内容的模型仍然在使用为感知任务设计的相同数据集进行训练。为了在认知任务中获得成功,模型需要理解图像中对象之间的相互作用和关系。比如当被问及“What vehicle is the person riding?"时,计算机将需要识别图像中的物体以及riding(man,carriage)和pulling(horse,carriage)来正确地回答“the person is riding a horse-drawn carriage”。
  在本文中,我们提出了Visual Genome数据集,来帮助这种关系的建模。我们收集每个图像中的对象、属性和关系的密集注释,以学习这些模型。具体而言,我们的数据集包含超过108K图像,其中每个图像平均有35个对象、26个属性和21个对象之间的成对关系。我们将区域描述和问题回答对中的对象、属性、关系和名词短语规范化为WordNet sysnets。这些注释一起表示图像描述、对象、属性、关系和问题答案对的最密集和最大的数据集。

2.Visual Genome的数据表示
  VG数据集包含了7个主要的组件&#

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 6
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值