2019:Answer Them All! Toward Universal Visual Question Answering Models

研究发现,当前先进的VQA算法在自然图像和合成数据集上表现各异,无法实现跨领域推广。为此,提出了RAMEN模型,其在多个VQA数据集上展现出与顶级算法竞争的实力,旨在处理复杂推理和泛化问题。RAMEN通过早期融合、双模态嵌入学习和循环聚合实现概念简单但功能强大的VQA能力。
摘要由CSDN通过智能技术生成

摘要

        视觉问题回答(VQA)研究分为两个阵营:第一个关注需要自然图像理解的VQA数据集,第二个关注测试推理的合成数据集。一个好的VQA算法应该同时能够实现,但只有少数VQA算法用这种方法进行测试。我们比较了在覆盖这两个领域的8个VQA数据集上的五种最先进的VQA算法,为了使比较公平,所有的模型都尽可能地标准化了,例如,它们使用相同的视觉特征、答案词汇等。我们发现这些方法并不能推广到这两个领域。为了解决这个问题,我们提出了一种新的VQA算法,它可以在这两个领域上竞争或超过最先进的算法。

一、介绍

        正确回答这些问题需要很多能力,包括对象定位、属性检测、行为分类、场景理解、推理、计数以及更多。很多表现好的算法仅仅利用了偏见和表面相关性,之后的自然图像数据集试图解决此问题,VQA v2通过对每个问题加入互补图像和不同的答案减少了一定的语言偏见;TDIUC分析了多种问题和很少答案的泛化;CVQA测试了概念组合性;VQA CP v2测试了当训练和测试分布不同时的表现。

        虽然之后的自然图像数据集减少了偏见,但这里的绝大多数问题没有严格测试推理技能。创建了几个合成数据集作为一种补救措施,它们包含有着挑战性问题,即能测试多步推理、计数和逻辑推理的简单视觉场景。为正确评估算法的鲁棒性,这些数据集的创建者认为算法应该在两个领域内测试。

        然而,几乎所有最近的论文只报告了在一种领域上的表现,CLEVR上的最佳算法没有在自然图像VQA数据集上测试,反之亦然。我们在八个数据集上测试了五种最先进VQA系统,发现大多方法并没有在两个领域内表现好(图1)。我们提出一种新模型,在所有的评估数据集上竞争最先进的模型。

        主要贡献:(1)在8个数据集上对五种最先进算法严格比较,发现许多算法并不能跨领域进行推广。(2)VQA算法通常使用不同的视觉特征和答案词汇,使很难评估性能提高,我们努力标准化跨模型的组件,如使用相同视觉特征比较所有算法,这需要提高合成场景的方法来使用区域建议。(3)大多VQA算法在泛化测试中的表现很差,表明这些方法仍然在利用数据集偏见。(4)我们描述了一种新的算法,在所有数据集上与最先进的方法媲美,总体表现最好。

二、相关工作

        VQA数据集的统计数据如下。

         VQA v1数据集有多种语言偏见,如一些问题与特定答案严重相关,VQAv2存在其它语言偏见,如推理问题与检测问题相比比较罕见。TDIUC尝试将问题分为12种类型,有评估问题类型泛化的指标。CVQA重新分割VQAv1,以测试训练集中未见过的概念组成的泛化,测试了以看不见的方式组合以前看到的概念能力。VQA-CPv2重新组织了VQAv2,每种问题类型的答案分布在训练和测试中不同。CLEVR是一个合成数据集,包含简单几何形状的视觉场景,旨在测试合成语言和基本的视觉推理,其中的问题通常需要长链的复杂推理,其中问题被分为五个任务:查询属性、比较属性、存在、计数和整体比较,所有的问题都通过编程生成,所以创建CLEVR-Humans是为提供人类生成的问题,以测试对自由形式问题的泛化。 CLEVR-CoGenT测试了处理看不见的概念组合和记住旧的概念组合的能力,分为CoGenT-A和CoGenT-B,具有相互排斥的形状+颜色组合,如果在CoGenT-A上训练的模型在没有微调的情况下在CoGenT-B上表现良好,它表明了对新组成的泛化,如果在CoGe

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值