Visual Reasoning | GQA Dataset

参考博客:
https://blog.csdn.net/hester_hester/article/details/103238649
https://zhuanlan.zhihu.com/p/64183181

CLEVR虽然消除了dataset bias,但是人工合成的图像和问题组成,多样性较低,类和属性较少,容易使模型记住所有组合。
因此提出GQA,由真实图像组成,并在一个大的语义空间中运行,更具挑战性。

GQA数据集围绕真实图像推理、场景理解和合成问题回答等一系列任务,由113K张图像和22M个不同的问题组成。该数据集衡量了一些列推理技能。reasoning skills such as object and attribute recognition, transitive relation tracking, spatial reasoning, logical inference and comparisons.

Introduction

三个贡献:
在这里插入图片描述

Dataset

借鉴了CLEVR数据集, structured representations and detailed annotations for images and questions
建立了scene graph来表示物体,属性,和关系。同时和CLEVR一样也有functional program
在这里插入图片描述

具体的生成方式,并且提出一系列metrics,在GQA task进行综合评估
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值