谷歌提出超强预训练模型CoCa,在ImageNet上微调Top-1准确率达91%!在多个下游任务上SOTA!...

关注公众号,发现CV技术之美

本文分享论文『CoCa: Contrastive Captioners are Image-Text Foundation Models』,Google Research提出超强预训练模型CoCa,在ImageNet上微调Top-1准确率达91%!在多个下游任务上SOTA!

详细信息如下:

95a855cf0b25b9b618d54ed73ddda392.png

  • 论文链接:https://arxiv.org/abs/2205.01917

      01      

摘要

探索大规模预训练基础模型在计算机视觉中具有重要意义,因为这些模型可以快速转移到许多下游任务中。本文提出了对比字幕(Contrastive Captioner,CoCa)模型,它将图像文本编码器-解码器基础模型与对比损失和字幕损失结合起来进行预训练,从而从CLIP等对比方法和SimVLM等生成方法中吸收两种模型的长处。与所有解码器层都attend到编码器输出的标准编码器-解码器Transformer不同,CoCa省略了前一半解码器层中的交叉注意来编码unimodal文本表示,并将交叉注意力图像编码器的其余解码器层级联以进行multimodal图像文本表示。

作者在unimodal图像和文本嵌入之间应用了对比损失,此外,multimodal解码器输出上的字幕损失可以自动回归预测文本token。通过共享相同的计算图,可以以最小的开销高效地计算两个训练目标。通过将所有标签简单地视为文本,CoCa在web级文本数据和带标注的图像上都进行了端到端和从头开始的预训练,统一了表示学习的自然语言监督。

从实验上来看,CoCa在广泛的下游任务中,通过Zero-Shot迁移或最小的任务特定的微调,实现了最先进的性能,包括视觉识别(ImageNet、Kinetics400/600/700、Moments in Time)、跨模态检索(MSCOCO、Flickr30K、MSR-VTT)、多模态理解(VQA、SNLI-VE、NLVR2)和图像字幕(MSCOCO、NoCaps)。在ImageNet分类方面,CoCa获得了86.3%的zero-shot top-1准确率,使用冻结的编码器和学习分类头获得了90.6%,使用可学习的编码器获得了91.0%的top-1准确率

      02      

Motivation

深度学习最近见证了基础语言模型的兴起,如BERT、T5、GPT-3,其中模型在网络规模的数据上进行预训练,并通过zero-shot、few-shot或迁移学习展示通用多任务能力。与专门的个体模型相比,大规模下游任务的预训练基础模型可以分摊训练成本,为人类水平的智力提供了突破模型规模限制的机会。

对于视觉和视觉语言问题,已经探索了几个候选基础模型:

  1. 一些开创性的工作表明,在图像分类数据集(如ImageNet)上,使用交叉熵损失预训练的单编码器模型是有效的。图像编码器提供通用的视觉表示,可以适应各种下游任务。然而,这些模型在很大程度上依赖于图像标注作为标记向量,并且没有吸收自由形式人类自然语言的知识,这阻碍了它们在涉及视觉和语言模态的下游任务中的应用。

  2. 最近,一系列研究表明,通过对两个并行编码器进行预训练,并在web级噪声图像-文本对上进行对比损失,可以实现图像-文本基础模型。除了仅用于视觉任务的视觉嵌入外,生成的双编码器模型还可以将文本嵌入编码到相同的潜在空间,从而实现新的跨模态对齐功能

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值