CVPR2021:Found a Reason for me? Weakly-supervised Grounded Visual Question Answering using Capsules

使用胶囊的弱监督基础视觉问答

摘要

        VQA任务的接地问题最近得到了越来越多的关注,大多尝试使用预训练的目标检测器解决此问题,然而,预训练检测器需要边界框注释来检测词汇表中相关的对象,这对实际大规模应用可能是不可行的。本文关注一个更轻松的设置:通过对VQA任务的训练,以弱监督的方式接地相关实体。我们提出一个视觉胶囊模块,一种基于查询胶囊特征的选择模块,允许模型关注与视觉信息相关的文本线索的区域。我们表明了在VQA系统集成这种胶囊模块可显著提高弱监督接地任务上的性能。我们展示了我们的方法在两个先进VQA系统上的有效性,堆叠NMN和MAC。我们的评估集是基于CLEVER场景--为正确答案相关的对象提供真实边界框,和GQA--一个包含组合问题的真实视觉VQA数据集。我们表明,具有胶囊模块的系统在答案接地方面始终优于各自的基线系统,同时在VQA任务上实现了可比的性能。

原文

代码

一、介绍

        了解答案如何生成变得很重要,以评估答案是否基于正确的线索。这就允许判断整体的正确性,而不是简单的评估文本答案。最近工作不仅评估正确率,而且还通过评估答案所基于的接地的准确性来解决这个问题。答案的接地通常是考虑给定答案的图像的注意力图,以及评估与正确答案是否相关。

        为实现好的接地精度,大多方法依赖由相关对象类预训练的目标检测模型的输入特征图。这将范围限制在已知的对象类如MSCOCO,或需要注释相关对象的区域,并为这些对象预训练一个目标检测器。目前很少有人尝试解决没有预训练的目标检测器训练VQA和接地这个问题,如在GQA数据集的上下文中只是用空间特征。本文主要关注:基于VQA监督的弱监督视觉接地,分为两个任务:视觉问答和正确的视觉接地都应该单独从VQA任务中学习。因此我们不使用任何对象级的信息作为输入或监督。

        这种情况正确的接地通常基于两个主要任务,找到相关视觉实例,和建模这些实例的关系,如图1。为解决此问题,我们提出用胶囊扩展VQA框架。胶囊网络在三维点云、视频和医学图像等领域的可解释性和分割方面已经取得了很好的结果。胶囊层能够通过协议路径学习对象实体的部分到整体的关系,我们相信这种建模对象及其关系的能力使胶囊成为解决VQA弱监督接地问题的一个好的选择。

        目前基于胶囊的方法遵循了在卷积特征上添加胶囊层,并在目标类的监督下进行训练。一种离散的和有监督的掩码操作,即掩盖除地面真相类胶囊外的所有胶囊,通常用于重建或分割给定类相应的对象。在弱的VQA接地情况下,没有基于类或对象的监督,只给出了自然语言问题,因此,我们提出一种soft-masking程序,根据输入的问题选择胶囊。

        为评估VQA系统的答案接地能力,考虑两个数据集,最近提出的GQA数据集和CLEVR数据集。为在CLEVR上评估接地准确性,我们提出一种新的CLEVR验证集CLEVR-Answers。CLEVR-Answers为答案基于的所有对象提供相应地面真实边界框。我们只在评估期间需要地面真实边界框,因此是在没有进一步注释的训练过程中学习对象的视觉表示。我们使用这种新的评估集来测试当前最先进的框架MAC和堆叠NMN的接地能力。我们表明,虽然所有框架在VQA精度上都在相同水平,但在接地能力方面有主要的差异,使用基于软查询的掩蔽的胶囊显著提高了现有方法的接地能力。

二、相关工作

VQA和视觉接地

        提供接地标签的数据集有GQA,VCR,VQS,CLEVRER和TVQA+等。在这里&

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值