CVPR2021:Separating Skills and Concepts for Novel Visual Question Answering将技巧与概念分开的新视觉问答

本文提出将视觉问答(VQA)问题分解为“技巧”和“概念”,针对技巧和概念的新组合进行泛化能力评估。通过对比学习,模型学习在不依赖特定上下文的情况下识别和分离技巧与概念,以提高对新问题的解答能力。实验表明,这种方法在处理新技巧和新概念组成的VQA问题上显著优于现有模型,且能在无标签数据上学习新概念。
摘要由CSDN通过智能技术生成

摘要

        推广到分布外的数据一直是VQA的问题,为解决对新问题的推广,我们建议将它们分为“技巧”和"概念","技巧"是视觉任务,如计数和属性识别,被应用到"概念"(如物体和人)中。VQA方法应该能够以新的方式组合"技能"和"概念",无论在训练中如何,但我们证明现有模型在处理新组合方面有很多需要改进。我们提出了一种学习组合"技能"和"概念"的新方法,通过学习基础概念表示并从概念编码中区分出技巧编码,在模型中隐式地分离这两个因素。我们用一种新的对比学习过程来执行这些属性,它不依赖于外部注释,并且可以从未标记的图像-问题对中学习。实验证明了该方法对提高组合性能和接地性能的有效性。

代码

一、介绍

        当人类回答问题时,首先解释问题,将问题拆分成部分(如概念,关系,行为,问题种类),然后选择并执行技巧来得出答案。这个技巧应用到很多特定问题内容的种类中。例如,你可以回答关于物体颜色的问题,以及识别和回答关于汽车的问题,那对于汽车是什么颜色的问题应该能直接回答,即使具体的组成还没有被看到。这种使用技巧来采用和组成概念表示的能力对于VQA的真正理解和从较少标签数据中泛化至关重要。

        组合性被认为是人类认知的基本特性之一,仍需更多研究将组合性纳入模型和开发数据高效、可推广的系统。大多数先进模型没有任何内置组合的概念,并倾向于将技巧和概念用在学习表示中。以前的工作研究泛化能力的缺乏,使用与训练数据分布不同的测试数据,但是这并不能直接解决中心问题(缺乏组合性),它表现为糟糕的泛化和过度依赖语言先验。

        为解决此问题,我们第一个贡献是对VQA组合性的新观点:技巧-概念组合,以及一个新的评估设置,直接针对VQA如何推广到技巧和概念的新组合。这一观点的动机是我们的观察,即回答一个关于真实图像的自然问题需要理解两个不同的元素:1)问题所提到的视觉概念;2)我们需要从所提到的概念中提取哪些信息。

        我们提出一种新方法来改进泛化,利用对比学习来分离模型内部表示中的技巧和概念,同时共同学习回答问题。我们使用接地作为代理来分离概念,以便模型学习在问题和图像中识别一个概念,而不管特定的上下文如何。与弱监督接地[3,17]类似,我们通过对比掩蔽的概念词的多模态表示与其他问题中单词的多模态表示来训练模型以恢复给定图像问题对中提到的概念。我们利用一种新的方法来策划对比损失的正的和负的例子,以便模型学会基于相关的视觉信息来预测概念,而不是使用表面的上下文线索。此外,我们的方法通过对比具有相同或不同技巧的问题表示来学习将技巧从概念中分离出来。这些特性与VQA目标共同学习,基于最先进的模型,并可推广到新的架构。

        我们方法的优点:1)我们只使用VQA数据,不需要外部注释,以一种自监督的方式学习接地。这与以前类似的目标的方法(注释要求而产生大量费用)相反。2)我们的方法不依赖于答案标签来学习技能-概念分离,因此我们能够使用未标记的图像-问题对来学习这些属性。因此,我们能够获得新的概念,并学习回答关于这些概念的无标记的问题,这对于推广到新领域或新实例至关重要。此外,我们关注数据高效的方法,不使用VQA外部的大量数据(如预训练方法[39,8],获得方法昂贵,并且需要对该领域和/或概念的先验知识表现良好)。

        本论文的主要贡献:1)提出一种新的VQA组合性的视野和评估设置,称为技巧-概念组合,它能对真实图像问答有一个更直接和可解释的评估。2)提出一种新的对比学习方法,它结合了有着自监督学习的VQA方法,以在没有额外注释花费的情况下实现技巧概念区分。3)我们的方法显示了比现有的新技巧-概念组成模型的显著改进,以及泛化到包含没有见过的概念的未标记图像问题对。

二、相关工作

VQA和评估

        另一个数据集[30]评估来自VQAv1[6]的数据和由问题模板和图像注释生成的合成数据,它们通过视觉任务分解。按任务考虑问题的基本前提类似于我们的“技巧”,但我们的设置检查技能和概念的合成的泛化性,我们在没见过的技巧和概念组成上评估。现有的评估泛化的工作[2,30]并没有探索对这种新组合的泛化。

组合性和VQA

        CLEVR和GQA都提供了组合性的问题,问题中包含各种关系链。GQA并不关注新的组成,但CLEVR研究了属性和对象的新组成,例如,模型在训练期间看到某种颜色的立方体和其他颜色的圆柱体,然后立方体和圆柱体在测试中交换它们的颜色。类似于我们的设置,尽管我们建议研究技巧概念组成,我们实验是关于真实图像的自然问题。其他创建组合模型的努力来处理关系推理链[22,46]。我们的方法隐式地在最先进的多模态transformer架构中隐式地学习组合能力,不像这些显式的方法。我们还提供了当前组合模型(

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值