2021:MDETR-Modulated Detection for End-to-end Multi-Modal Understanding

最新推荐文章于 2024-01-13 00:00:38 发布

weixin_42653320

最新推荐文章于 2024-01-13 00:00:38 发布

阅读量625

点赞数

分类专栏：视觉问答参考文章文章标签：深度学习计算机视觉

本文链接：https://blog.csdn.net/weixin_42653320/article/details/121407483

版权

MDETR是一种端到端的文本调制检测器，它能从自由形式的文本中检测图像中的对象。通过在1.3M文本-图像对上预训练，模型在短语接地、参考表达理解和分割等任务上实现最先进的结果，且在少样本长尾目标检测中表现出色。MDETR基于Transformer，将文本和图像信息融合，解决了传统多模态系统中对象检测器作为黑箱的问题，允许模型捕捉自由形式文本表达的视觉概念。

摘要由CSDN通过智能技术生成

摘要

多模态推理依赖于一个预训练过的对象检测器来从图像中提取感兴趣的区域，然而，这个关键的模块通常作为一个黑箱，在对象和属性的固定词汇表上进行训练，独立于下游任务。这使得捕获自由形式文本表达的视觉概念的长尾具有挑战性。本文中，我们提出MDETR，一种端到端的调制检测器，它可以检测基于原始文本查询的图像中的对象，如标题或一个问题。我们使用一个基于Transformer的结构，通过在模型的早期阶段融合这两个模态，来对文本和图像进行联合推理。我们在1.3M文本-图像对上对网络预训练，从已存在的多模态数据集中挖掘出来，在文本和对象之间有显示对齐。然后在几个下游任务上进行微调，如短语接地、参考表达理解和分割，在流行的基准测试上实现最先进的结果。我们还研究了当在一个少量样本设置中微调时，我们的模型作为一个对象检测器在一个给定的标签集上的效用。我们表明，我们的预训练方法提供了一种方法来处理那些有很少的标签实例的对象类别的长尾类。我们的方法可以很容易扩展到视觉问答、在GQA和CLEVER上取得竞争性能。

一、介绍

对象检测是最先进的多模态理解系统[6,28]的组成部分，通常用作黑盒检测图像中固定的固定词汇，然后进行多模态对齐。这种“流水线”方法限制了与其他模式作为上下文的协同训练，并限制了下游模型只能访问检测到的对象，而不能访问整个图像。此外，检测系统通常是冻结的，阻止了进一步细化模型的感知能力。在视觉语言设置中，它意味着将结果系统的词汇限制在检测器的类别和属性中，通常是这些任务的性能的瓶颈，因此，这样的系统不能识别在自由形式文本中表达的概念的新组合。

[66,45,13]最近的一系列工作考虑了文本条件对象检测的问题，这些方法扩展了主流的一阶段和两阶段的检测架构来实现这一目标。然而，据我们所知，还没有人证明这种检测器可以提高需要对被检测对象进行推理的下游任务的性能，例如视觉问题回答(VQA)。我们认为，这是因为这些检测器不是端到端可区分的，因此不能与下游任务协同训练。

我们的方法，MDETR，是一种基于最近的DETR[2]检测框架的端到端调制检测器，并结合自然语言理解执行对象检测，实现真正的端到端多模态推理。MDETR仅依赖于文本和对齐的框作为对图像中概念的一种监督形式，因此，与之前检测方法不同，MDETR从自由形式的文本中检测细微的概念，并推广到看不见的类别和属性的组合。图1展示了这种组合以及调制检测。根据设计，我们的预测是接地于文本的，这是视觉推理的关键要求。当使用200000张图像和对齐的文本和框注释的一个数据集预训练，我们在Flickr30k数据集上的短语接地任务、RefCOCO/+/g数据集参考表达式理解、和参考表达式分割实现最好的结果，以及在GQA和CLEVR基准视觉问题回答上有竞争的性能。

我们的贡献如下：1）引入一个来自DETR检测器的端到端的文本调制的检测系统；2）我们证明了调制检测方法可以无缝地应用于解决如短语接地和引用表达理解等任务，使用具有合成和真实图像的数据集在这两个任务上实现最先进的性能；3）我们表明，良好的调制检测性能可以自然地转移到下游任务的性能，如

最低0.47元/天解锁文章

weixin_42653320

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
2021:MDETR-Modulated Detection for End-to-end Multi-Modal Understanding

摘要多模态推理依赖于一个预训练过的对象检测器来从图像中提取感兴趣的区域，然而，这个关键的模块通常作为一个黑箱，在对象和属性的固定词汇表上进行训练，独立于下游任务。这使得捕获自由形式文本表达的视觉概念的长尾具有挑战性。本文中，我们提出MDETR，一种端到端的可调节的检测器，它可以检测基于原始文本查询的图像中的对象，如标题或一个问题。我们使用一个基于Transformer的...
复制链接

扫一扫