Answer Them All! Toward Universal Visual Question Answering Models 通用VQA模型

Answer Them All! Toward Universal Visual Question Answering Models出自美国罗切斯特理工学院的Christopher Kanan组。

文章目录

Abstract

VQA的研究现状分两个阵营:

  1. 专注于需要现实图像理解的VQA数据集;

  2. 专注于检验推理能力的合成数据集。

按理说,一个好的VQA模型要能够在这两种情况下都表现很好,具备良好的泛化能力。但实际上,经过本文的实验对比,所有的方法都无法在领域之间做到泛化。

本文提出一种新的VQA算法,能够匹敌甚至超过这两个领域的最优方法。

Introduction

  1. 正确回答VQA的问题需要大量的能力:物体定位(Object location),属性检测(Attribute Detection),行为分类(Activity Classification),场景理解(Scene understanding),推理(reasoning),counting(计数)。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值