谷歌提出超强预训练模型CoCa，在ImageNet上微调Top-1准确率达91%！在多个下游任务上SOTA！...-CSDN博客

本文链接：https://blog.csdn.net/moxibingdao/article/details/125230251

谷歌研究团队提出CoCa模型，结合对比学习和字幕生成，实现预训练新高度。CoCa在ImageNet上微调后Top-1准确率高达91%，并在多个下游任务中取得SOTA表现，如视觉识别、跨模态检索等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

关注公众号，发现CV技术之美

本文分享论文『CoCa: Contrastive Captioners are Image-Text Foundation Models』，Google Research提出超强预训练模型CoCa，在ImageNet上微调Top-1准确率达91%！在多个下游任务上SOTA！

详细信息如下：

论文链接：https://arxiv.org/abs/2205.01917

摘要

探索大规模预训练基础模型在计算机视觉中具有重要意义，因为这些模型可以快速转移到许多下游任务中。本文提出了对比字幕（Contrastive Captioner，CoCa）模型，它将图像文本编码器-解码器基础模型与对比损失和字幕损失结合起来进行预训练，从而从CLIP等对比方法和SimVLM等生成方法中吸收两种模型的长处。与所有解码器层都attend到编码器输出的标准编码器-解码器Transformer不同，CoCa省略了前一半解码器层中的交叉注意来编码unimodal文本表示，并将交叉注意力图像编码器的其余解码器层级联以进行multimodal图像文本表示。

作者在unimodal图像和文本嵌入之间应用了对比损失，此外，multimodal解码器输出上的字幕损失可以自动回归预测文本token。通过共享相同的计算图，可以以最小的开销高效地计算两个训练目标。通过将所有标签简单地视为文本，CoCa在web级文本数据和带标注的图像上都进行了端到端和从头开始的预训练，统一了表示学习的自然语言监督。

从实验上来看，CoCa在广泛的下游任务中，通过Zero-Shot迁移或最小的任务特定的微调，实现了最先进的性能，包括视觉识别（ImageNet、Kinetics400/600/700、Moments in Time）、跨模态检索（MSCOCO、Flickr30K、MSR-VTT）、多模态理解（VQA、SNLI-VE、NLVR2）和图像字幕（MSCOCO、NoCaps）。在ImageNet分类方面，CoCa获得了86.3%的zero-shot top-1准确率，使用冻结的编码器和学习分类头获得了90.6%，使用可学习的编码器获得了91.0%的top-1准确率。

Motivation

深度学习最近见证了基础语言模型的兴起，如BERT、T5、GPT-3，其中模型在网络规模的数据上进行预训练，并通过zero-shot、few-shot或迁移学习展示通用多任务能力。与专门的个体模型相比，大规模下游任务的预训练基础模型可以分摊训练成本，为人类水平的智力提供了突破模型规模限制的机会。

对于视觉和视觉语言问题，已经探索了几个候选基础模型：

一些开创性的工作表明，在图像分类数据集（如ImageNet）上，使用交叉熵损失预训练的单编码器模型是有效的。图像编码器提供通用的视觉表示，可以适应各种下游任务。然而，这些模型在很大程度上依赖于图像标注作为标记向量，并且没有吸收自由形式人类自然语言的知识，这阻碍了它们在涉及视觉和语言模态的下游任务中的应用。
最近，一系列研究表明，通过对两个并行编码器进行预训练，并在web级噪声图像-文本对上进行对比损失，可以实现图像-文本基础模型。除了仅用于视觉任务的视觉嵌入外，生成的双编码器模型还可以将文本嵌入编码到相同的潜在空间，从而实现新的跨模态对齐功能&#