In Defense of Grid Features for Visual Question Answering论文阅读

In Defense of Grid Features for Visual Question Answering 论文阅读

Abstract

作为“自底向上”关注,基于边界框(或区域)的视觉特征最近已经超过了普通的基于网格的卷积特征,成为视觉和语言任务(如视觉问题回答(VQA))的事实标准。然而,还不清楚地区的区域(例如更好的定位)是否是自下而上注意力成功的关键原因。在这篇文章中,我们重新审视了VQA的网格特性,发现它们可以非常好地工作——以同样的精度运行速度快一个数量级以上。通过大量的实验,验证了这一观察结果在不同的VQA模型(报告了vqa2.0测试标准,accuracy:72.71)、数据集上都是正确的,并很好地推广到其他任务,如图像字幕。由于网格特性使模型设计和训练过程变得更加简单,这使我们能够对其进行端到端的培训,并且还可以使用更灵活的网络设计。我们学习了端到端的VQA模型,从像素直接到答案,并证明了在预训练中不使用任何区域注释就可以获得很好的性能。

1 introduction

目前主流的视觉特征是“bottom-up”特征,作者提出问题是什么导致“bottom-up”特征比传统的网格特征更好的

一种 最可能的说法是更好地定位单个对象,因为这些区域是检测器的直接边框输出。
另一种可能说许多区域可以很容易地捕获图像中的粗略信息和精细信息,即使区域间存在重叠。

但是作者的实验发现,从预训练检测器的完全相同的层提取到的网格特征可以与以区域为基础的特征达到相似的效果,如果在训练中调整参数甚至可能达到更好的效果。消融实验发现,“bottom-up”特征能达到很好效果的作用主要来自于以下两点:

  • 在用于预训练的视觉基因组(VG)数据集中收集的的大规模对象和属性注释

  • 用于计算特征的输入图像的高空间分辨率。

网格特征与“自下而上”的区域特征有相同的效果,但是网格特征推理的速度更快,因为跳过了现有VQA管道中所用与区域相关的步骤。例如,使用ResNet-50主干网,发现在每幅图像的总运行时间从0.89s下降到0.02s,速度快了40多倍,精确度稍有提高!并且网格特征不需要额外的注释。如图1所示

在这里插入图片描述

图1

2 Related Work

VQA模型的预训练: 本文作者提出近期的研究热点是将视觉和语言任务在同一个模型上进行预训练,这类方法的一个常见方案是将区域和单词视为各自领域的“标记”,并为屏蔽标记预测与训练BERT。作为对这一方向的补充,作者的工作特别深入研究视觉标记的“格式”,并可能与这些方法结合以实现互利(例如,在速度和准确性之间进行权衡)。

区域与网络: 区域特征和网格特征之间的争论一方面带来了一些与目标检测的内在联系,基于区域神经网络的检测模型的优势。另一方面。一级检测器不要明确区域级计算即可完成检测任务,并表明网格特征对于目标检测具有竞争力,。作者在训练推断期间丢弃了与区域相关的步骤,并且只是用网格卷积特征,达到了更好的效果。

3 From Regions G

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值