作者
摘要
多模态推理系统依靠预先训练的目标检测器从图像中提取感兴趣的区域。然而,这一关键模块通常被用作一个黑匣子,独立于下游任务进行训练,并使用固定的对象和属性词汇表。这使得这类系统很难捕捉以自由形式文本表达的视觉概念的长尾。在本文中,我们提出了MDETR,这是一种端到端的调制检测器,用于检测以原始文本查询为条件的图像中的对象,如标题或问题。我们使用基于转换器的架构,通过在模型的早期阶段融合这两种模式,对文本和图像进行联合推理。我们在1.3M文本-图像对上对网络进行预训练。从预先存在的多模态数据集中挖掘,文本中的短语和图像中的对象之间具有明确的对齐。然后,我们对几个下游任务进行微调,例如短语基础、引用表达式理解和分割,在流行基准上获得最先进的结果。我们还研究了当在几个镜头设置中进行微调时,我们的模型作为给定标签集上的对象检测器的实用性。我们表明,我们的预训练方法提供了一种处理对象类别的长尾的方法,这些对象类别具有很少的标记实例。我们的方法可以很容易地扩展为可视化问答,在GQA和CLEVR上实现有竞争力的性能。有关代码和模型,请访问https://github.com/ashkamath/mdetr
Introduction
目标检测构成了大多数最先进的多模态理解系统的一个组成部分,通常用作黑匣子,用于检测图像中固定的概念词汇,然后进行多模态对齐。这种“流水线”方法限制了与其他模式作为上下文的共同训练,并限制下游模型只能访问检测到的对象,而不能访问整个图像。此外,检测系统通常是冻结,这会阻止进一步细化模型的感知能力。在视觉语言设置中,这意味着将结果系统的词汇限制为检测器的类别和属性,并且通常是这些任务性能的瓶颈[72]。因此,这样的系统无法识别自由形式文本中表达的概念的新颖组合。
图一查询“粉红大象”的MDETR输出。颜色不是分割遮罩,而是像素的真实颜色。这位模特在训练中从未见过粉红或蓝色的大象
最近的一项工作[66,45,13]考虑了文本条件下的目标检测问题。这些方法扩展了主流的一级和两级检测架构,以实现这一目标。然而,据我们所知,还没有证明这种检测器可以提高下游任务的性能,这些任务需要对检测到的对象进行推理,例如视觉问答(VQA)。我们认为这是因为这些检测器不是端到端可微的,因此无法与下游任务协同训练。
我们的方法MDETR是基于最新DETR[2]检测框架的端到端调制检测器,结合自然语言理解执行对象检测,实现真正的端到端多模态推理。MDETR仅依赖文本和对齐框作为图像中概念的监督形式。因此,与当前的检测方法不同,MDETR从自由格式文本中检测细微的概念,并将其概括为看不见的类别和属性组合。我们展示了这样一种组合以及调制检测图1。通过设计,我们的预测基于文本,这是视觉推理的关键要求[65]。当使用200000个图像和带方框注释的对齐文本数据集进行预训练时,我们在Flickr30k数据集上获得了最佳报告结果,用于短语基础,RefCOCO/+/g数据集用于引用表达式理解,以及引用短语切割上的表达式分段,以及GQA和CLEVR视觉问答基准的竞争性能。
- 我们的贡献如下:
- 我们介绍了一种端到端文本调制检测系统,该系统源于DETR检测器
- 我们证明,调制检测方法可以无缝应用于解决诸如短语基础和引用表达理解等任务,使用具有合成图像和真实图像的数据集在这两项任务上设置新的最先进性能
- 我们表明,良好的调制检测性能自然转化为下游任务性能,例如,在视觉问答、引用表达式分割和少镜头长尾目标检测方面实现具有竞争力的性能
Method
2.1Background
DETR
我们的调制检测方法建立在DETR系统[2]的基础上,我们在此简要回顾一下。我们请读者参阅原稿以了解更多细节。DETR是一种端到端检测模型,由主干网(通常为卷积剩余网络[12])和Transformer Encoder-Decoder[59]组成。
DETR编码器在主干的2D平坦图像特征上运行,并应用一系列Transformer层。解码器将一组称为对象查询的N个已学习嵌入作为输入,可以将其视为模型需要用检测到的对象填充的插槽。所有对象查询都并行地反馈给解码器,解码器使用交叉注意层查看编码图像,并预测每个查询的输出嵌入。每个对象查询的最终表示使用共享前馈层独立解码为框坐标和类标签。对象查询的数量实际上是模型可以同时检测到的对象数量的上限。对于给定图像中可能遇到的对象数量,必须将其设置为足够大的上限。由于特定图像中对象的实际数量可能小于查询的数量N,因此使用对应于“无对象”的额外类标签,由∅模型经过训练,可以为每个与对象不对应的查询输出此类。
DETR使用Hungarian matching loss进行训练,其中在N个拟用对象和地面真值对象之间计算二部匹配。每个匹配的对象都使用对应的目标作为背景真值进行监督,而未匹配的对象则被监督以预测“无对象”标签∅. 分类头使用标准交叉熵进行监督,而边界盒头使用绝对误差(L1损失)和广义IoU的组合进行监督[48]。
2.2MDETR
2.2.1Architecture
我们在图2中描述了MDETR的体系结构。在DETR中,图像由卷积主干编码并展平。为了保存空间信息,将二维位置嵌入添加到该展平向量中。我们使用预先训练的transformer语言模型对文本进行编码,以生成与输入大小相同的隐藏向量序列。然后,我们将模态相关的线性投影应用于图像和文本特征,将它们投影到共享的嵌入空间中。然后将这些特征向量在序列维度上串联,以产生图像和文本特征的单个序列。该序列被馈送到称为交叉编码器的联合变压器编码器。在DETR之后,我们对对象查询应用transformer解码器,同时交叉处理交叉编码器的最终隐藏状态。解码器的输出用于预测实际的盒子。
MDETR使用卷积主干提取视觉特征,使用语言模型(如RoBERTa)提取文本特征。这两种模式的特征都被投射到一个共享的嵌入空间,连接并馈送到变压器编码器-解码器,该编码器-解码