Visual Genome数据集介绍

Visual Genome数据集


Visual Genome数据集,是由斯坦福大学人工智能实验室主任李菲菲与几位同事合作开发的。


数据集及论文网址:http://visualgenome.org/




一、作者的初衷是什么?为什么要设计出这样一个数据集?


1.作者在视觉领域研究了多年,一直致力于寻求最好的算法,来达到更好的效果。但是受人类对于世界的认识过程的启发,作者认为,教计算机理解图片,其实和教儿童认识世界的过程是类似的。儿童的眼睛就类似一对生物相机,3岁时他已经浏览过数亿张真实世界的图像,这是一个非常庞大的训练数据集。

  • 10
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
VQA(Visual Question Answering)是指通过计算机视觉和自然语言处理技术,让计算机能够回答与图像相关的自然语言问题。在VQA研究中,数据集是非常重要的,下面介绍几个经典的VQA数据集: 1. VQA v1和VQA v2 VQA v1和VQA v2是VQA领域最早和最重要的两个数据集。它们包含了超过200,000张图像和超过1,000,000个与图像相关的问题和答案。这些问题涉及到图像中的对象、场景、属性等各方面,答案可以是单词、短语或句子。VQA v2相比于VQA v1,增加了一些挑战性的问题,例如需要推理或者需要多步骤计算。 2. COCO-QA COCO-QA是基于COCO(Common Objects in Context)数据集构建的VQA数据集,包含了超过120,000张图像和超过750,000个与图像相关的问题和答案。与VQA数据集不同的是,COCO-QA的问题和答案都是多项选择的形式,其中一个正确,其余的错误。 3. Visual7W Visual7W是一个涉及到7个“W”(Who、What、Where、When、Why、How和Which)的VQA数据集,包含了超过47,000张图像和超过300,000个与图像相关的问题和答案。这些问题涉及到图像中的对象、场景、动作等各方面。 4. GQA GQA(Visual Genome Question Answering)是一个基于Visual Genome数据集构建的VQA数据集,包含了超过22,000张图像和超过1,000,000个与图像相关的问题和答案。GQA中的问题具有更高的复杂性,需要对图像中的物体属性、关系、逻辑推理等方面进行推理。 以上是几个经典的VQA数据集,它们都为VQA领域的研究提供了丰富的数据资源。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值