2021:MDETR-Modulated Detection for End-to-end Multi-Modal Understanding

摘要

        多模态推理依赖于一个预训练过的对象检测器来从图像中提取感兴趣的区域,然而,这个关键的模块通常作为一个黑箱,在对象和属性的固定词汇表上进行训练, 独立于下游任务。这使得捕获自由形式文本表达的视觉概念的长尾具有挑战性。本文中,我们提出MDETR一种端到端的调制检测器,它可以检测基于原始文本查询的图像中的对象,如标题或一个问题。我们使用一个基于Transformer的结构,通过在模型的早期阶段融合这两个模态,来对文本和图像进行联合推理。我们在1.3M文本-图像对上对网络预训练,从已存在的多模态数据集中挖掘出来,在文本和对象之间有显示对齐。然后在几个下游任务上进行微调,如短语接地、参考表达理解和分割,在流行的基准测试上实现最先进的结果。我们还研究了当在一个少量样本设置中微调时,我们的模型作为一个对象检测器在一个给定的标签集上的效用。我们表明,我们的预训练方法提供了一种方法来处理那些有很少的标签实例的对象类别的长尾类。我们的方法可以很容易扩展到视觉问答、在GQA和CLEVER上取得竞争性能。

一、介绍

        对象检测是最先进的多模态理解系统[6,28]的组成部分,通常用作黑盒检测图像中固定的固定词汇,然后进行多模态对齐。这种“流水线”方法限制了与其他模式作为上下文的协同训练,并限制了下游模型只能访问检测到的对象,而不能访问整个图像。此外,检测系统通常是冻结的,阻止了进一步细化模型的感知能力。在视觉语言设置中,它意味着将结果系统的词汇限制在检测器的类别和属性中,通常是这些任务的性能的瓶颈,因此,这样的系统不能识别在自由形式文本中表达的概念的新组合。

        [66,45,13]最近的一系列工作考虑了文本条件对象检测的问题,这些方法扩展了主流的一阶段和两阶段的检测架构来实现这一目标。然而,据我们所知,还没有人证明这种检测器可以提高需要对被检测对象进行推理的下游任务的性能,例如视觉问题回答(VQA)。我们认为,这是因为这些检测器不是端到端可区分的,因此不能与下游任务协同训练

        我们的方法,MDETR,是一种基于最近的DETR[2]检测框架的端到端调制检测器,并结合自然语言理解执行对象检测实现真正的端到端多模态推理MDETR仅依赖于文本和对齐的框作为对图像中概念的一种监督形式,因此,与之前检测方法不同,MDETR从自由形式的文本中检测细微的概念,并推广到看不见的类别和属性的组合。图1展示了这种组合以及调制检测。根据设计,我们的预测是接地于文本的,这是视觉推理的关键要求。当使用200000张图像和对齐的文本和框注释的一个数据集预训练,我们在Flickr30k数据集上的短语接地任务、RefCOCO/+/g数据集参考表达式理解、和参考表达式分割实现最好的结果,以及在GQA和CLEVR基准视觉问题回答上有竞争的性能。

         我们的贡献如下:1)引入一个来自DETR检测器的端到端的文本调制的检测系统;2)我们证明了调制检测方法可以无缝地应用于解决如短语接地和引用表达理解等任务,使用具有合成和真实图像的数据集在这两个任务上实现最先进的性能;3)我们表明,良好的调制检测性能可以自然地转移到下游任务的性能,如在视觉问答、参考表达分割和在少样本长尾目标检测方面实现具有竞争力的性能。

二、方法

2.1 背景

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值