CVPR2021 用更好的目标检测器提取视觉特征！微软提出VinVL，基于更好的视觉特征，达到更强的多模态性能...

最新推荐文章于 2024-08-18 10:19:14 发布

我爱计算机视觉

最新推荐文章于 2024-08-18 10:19:14 发布

阅读量1.2k

点赞数 2

文章标签：大数据计算机视觉机器学习人工智能深度学习

本文链接：https://blog.csdn.net/moxibingdao/article/details/120806718

版权

微软在CVPR2021提出VinVL，通过改进目标检测模型，提供更丰富的视觉对象和概念表示，进而增强多模态性能。通过预训练大模型和使用大规模数据集，新模型在多个视觉语言任务上实现SOTA结果。

摘要由CSDN通过智能技术生成

关注公众号，发现CV技术之美

写在前面

本文详细研究了视觉语言（VL）任务中更好的视觉表示，并开发了一种目标检测模型，来提供以对象为中心的图像表示。与最广泛使用的bottom-up and top-down模型相比，新模型更大，更适用于VL任务，并在结合多个公共目标检测数据集的更大训练语料库上进行预训练。

因此，它可以生成更丰富的视觉对象和概念集合的表示。虽然之前的VL研究主要集中在改进视觉语言融合模型，而不涉及目标检测模型的改进，但作者发现视觉特征在VL模型中起着重要作用。

在本文的实验中，作者将新的目标检测模型生成的视觉特征输入到基于Transformer的VL融合模型OSCAR中，并利用改进的方法OSCAR+对VL模型进行预训练，然后在多个下游VL任务中对其进行微调。结果表明，新的视觉特征显著提高了所有VL任务的性能，在多个基准数据集上达到SOTA的结果。

论文和代码地址

VinVL: Revisiting Visual Representations in Vision-Language Models

论文地址：https://arxiv.org/abs/2101.00529

代码地址：https://github.com/pzzhang/VinVL

Motivation

视觉语言预训练(VLP)已被证明对广泛的视觉语言(VL)任务是有效的。VLP通常包括两个部分：

1）预训练目标检测模型，用于将图像和图像中的视觉对象编码为特征向量；

2）预训练跨模态融合模型，用于混合文本和视觉特征。现有的VLP研究主要集中在改进跨模态融合模型上，而本文着重于改进以对象为中心的视觉表示，并进行了全面的研究来证明视觉特征在VL模型中的重要性 。

在目前的多模态预训练工作中，大多使用的目标检测（OD）模型是在Visual Genome数据集上训练的。OD模型提供了一种以对象为中心的图像表示。在这项工作中，作者预训练了一个基于ResNeXt-152 C4结构（简称X152-C4）的大规模对象属性检测模型。

与以前的OD模型相比，新模型对VL任务进行了专门的设计，并且模型更大，训练的数据量更大，训练的数据结合了多个公共目标检测数据集，包括COCO、OpenImages（OI）、Objects365、Visual Genome (VG)。因此，本文的OD模型在广泛的VL任务上取得了更好的结果，如上表所示。