Visual Genome视觉基因组(1)

最新推荐文章于 2023-03-29 17:27:04 发布

Kivee123

最新推荐文章于 2023-03-29 17:27:04 发布

阅读量2.8k

点赞数 1

文章标签： scene understand

Visual Genome

Connecting Language and Vision Using Crowdsourced Dense Image Annotations
数据集网址

摘要：
尽管在诸如图像分类等感知任务上取得了进展，计算机在诸如图像描述和问题回答等认知任务上仍然表现不佳。认知是任务的核心，认知不仅涉及了识别，而且包括对我们的视觉世界进行推理。然而，用于处理用于认知任务的图像中的丰富内容的模型仍然在使用为感知任务设计的相同数据集进行训练。为了在认知任务中获得成功，模型需要理解图像中对象之间的相互作用和关系。比如当被问及“What vehicle is the person riding?"时，计算机将需要识别图像中的物体以及riding（man，carriage）和pulling（horse，carriage）来正确地回答“the person is riding a horse-drawn carriage”。
在本文中，我们提出了Visual Genome数据集，来帮助这种关系的建模。我们收集每个图像中的对象、属性和关系的密集注释，以学习这些模型。具体而言，我们的数据集包含超过108K图像，其中每个图像平均有35个对象、26个属性和21个对象之间的成对关系。我们将区域描述和问题回答对中的对象、属性、关系和名词短语规范化为WordNet sysnets。这些注释一起表示图像描述、对象、属性、关系和问题答案对的最密集和最大的数据集。

2.Visual Genome的数据表示
VG数据集包含了7个主要的组件&#

最低0.47元/天解锁文章

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
6
评论
Visual Genome视觉基因组(1)

Visual GenomeConnecting Language and Vision Using Crowdsourced Dense Image Annotations数据集网址摘要：尽管在诸如图像分类等感知任务上取得了进展，计算机在诸如图像描述和问题回答等认知任务上仍然表现不佳。认知是任务的核心，认知不仅涉及了识别，而且包括对我们的视觉世界进行推理。然而，用于处理用于认知任务的图...
复制链接

扫一扫

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。