CVPR2021:Found a Reason for me? Weakly-supervised Grounded Visual Question Answering using Capsules

最新推荐文章于 2023-05-17 20:54:28 发布

weixin_42653320

最新推荐文章于 2023-05-17 20:54:28 发布

阅读量586

点赞数 2

分类专栏：视觉问答 CVPR 文章标签：深度学习计算机视觉

本文链接：https://blog.csdn.net/weixin_42653320/article/details/118485057

版权

本文研究了弱监督视觉问答（VQA）中的接地问题，提出了一种基于胶囊网络的解决方案。传统方法依赖预训练目标检测器，而本文则在没有此类先验知识的情况下，通过胶囊网络学习相关实体。通过软掩蔽操作，模型能根据输入问题选择关注的视觉区域。实验证明，这种方法在VQA系统中提高了弱监督接地任务的性能，同时在VQA任务上保持了竞争力。文章在GQA和CLEVR数据集上进行了评估，显示了胶囊模块的优越性。

摘要由CSDN通过智能技术生成

使用胶囊的弱监督基础视觉问答

摘要

VQA任务的接地问题最近得到了越来越多的关注，大多尝试使用预训练的目标检测器解决此问题，然而，预训练检测器需要边界框注释来检测词汇表中相关的对象，这对实际大规模应用可能是不可行的。本文关注一个更轻松的设置：通过对VQA任务的训练，以弱监督的方式接地相关实体。我们提出一个视觉胶囊模块，一种基于查询胶囊特征的选择模块，允许模型关注与视觉信息相关的文本线索的区域。我们表明了在VQA系统集成这种胶囊模块可显著提高弱监督接地任务上的性能。我们展示了我们的方法在两个先进VQA系统上的有效性，堆叠NMN和MAC。我们的评估集是基于CLEVER场景--为正确答案相关的对象提供真实边界框，和GQA--一个包含组合问题的真实视觉VQA数据集。我们表明，具有胶囊模块的系统在答案接地方面始终优于各自的基线系统，同时在VQA任务上实现了可比的性能。

原文

代码

一、介绍

了解答案如何生成变得很重要，以评估答案是否基于正确的线索。这就允许判断整体的正确性，而不是简单的评估文本答案。最近工作不仅评估正确率，而且还通过评估答案所基于的接地的准确性来解决这个问题。答案的接地通常是考虑给定答案的图像的注意力图，以及评估与正确答案是否相关。

为实现好的接地精度，大多方法依赖由相关对象类预训练的目标检测模型的输入特征图。这将范围限制在已知的对象类如MSCOCO，或需要注释相关对象的区域，并为这些对象预训练一个目标检测器。目前很少有人尝试解决没有预训练的目标检测器训练VQA和接地这个问题，如在GQA数据集的上下文中只是用空间特征。本文主要关注：基于VQA监督的弱监督视觉接地，分为两个任务：视觉问答和正确的视觉接地都应该单独从VQA任务中学习。因此我们不使用任何对象级的信息作为输入或监督。

这种情况正确的接地通常基于两个主要任务，找到相关视觉实例，和建模这些实例的关系，如图1。为解决此问题，我们提出用胶囊扩展VQA框架。胶囊网络在三维点云、视频和医学图像等领域的可解释性和分割方面已经取得了很好的结果。胶囊层能够通过协议路径学习对象实体的部分到整体的关系，我们相信这种建模对象及其关系的能力使胶囊成为解决VQA弱监督接地问题的一个好的选择。

目前基于胶囊的方法遵循了在卷积特征上添加胶囊层，并在目标类的监督下进行训练。一种离散的和有监督的掩码操作，即掩盖除地面真相类胶囊外的所有胶囊，通常用于重建或分割给定类相应的对象。在弱的VQA接地情况下，没有基于类或对象的监督，只给出了自然语言问题，因此，我们提出一种soft-masking程序，根据输入的问题选择胶囊。

为评估VQA系统的答案接地能力，考虑两个数据集，最近提出的GQA数据集和CLEVR数据集。为在CLEVR上评估接地准确性，我们提出一种新的CLEVR验证集CLEVR-Answers。CLEVR-Answers为答案基于的所有对象提供相应地面真实边界框。我们只在评估期间需要地面真实边界框，因此是在没有进一步注释的训练过程中学习对象的视觉表示。我们使用这种新的评估集来测试当前最先进的框架MAC和堆叠NMN的接地能力。我们表明，虽然所有框架在VQA精度上都在相同水平，但在接地能力方面有主要的差异，使用基于软查询的掩蔽的胶囊显著提高了现有方法的接地能力。

二、相关工作

VQA和视觉接地

提供接地标签的数据集有GQA,VCR,VQS,CLEVRER和TVQA+

最低0.47元/天解锁文章

weixin_42653320

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
CVPR2021:Found a Reason for me? Weakly-supervised Grounded Visual Question Answering using Capsules

使用胶囊的弱监督基础视觉问答摘要 VQA任务的接地问题最近得到了越来越多的关注，大多尝试使用预训练的目标检测器解决此问题，然而，预训练检测器需要边界框注释来检测词汇表中相关的对象，这对实际大规模应用可能是不可行的。本文关注一个更轻松的设置：通过对VQA任务的训练，以弱监督的方式接地相关实体。我们提出一个视觉胶囊模块，一种基于查询胶囊特征的选择模块，允许模型关注与视觉信息相关的文本线索的区域。我们表明了在VQA系统集成这种胶囊模块可显著提高弱监督接地任务上的性能。我们展示了我们的方法...
复制链接

扫一扫

专栏目录