关注公众号,发现CV技术之美
本篇文章分享论文『PyramidCLIP: Hierarchical Feature Alignment for Vision-language Model Pretraining』,由腾讯&上交&浙大(沈春华)提出PyramidCLIP,进行层次内语义对齐和跨层次关系对齐,ImageNet上Zero-Shot效果优于CLIP!
详细信息如下:
论文链接:https://arxiv.org/abs/2204.14095
01
摘要
大规模视觉语言预训练在下游任务中取得了可喜的成果。现有的方法高度依赖于这样一个假设,即从互联网上抓取的图像-文本对是完全一对一对应的。然而,在实际场景中,这一假设很难成立:通过对图像的关联元数据进行爬取获得的文本描述通常存在语义不匹配和相互兼容性问题。
为了解决这些问题,作者引入了金字塔CLIP(PyramidCLIP),它构建了一个具有不同语义层次的输入金字塔,并通过层次内语义对齐(intra-level semantics alignment)和跨层次关系对齐(cross-level relation alignment)以层次的形式对齐视觉元素和语言元素。此外,作者还通过soften负样本(未配对样本)的损失来调整目标函数,以削弱预训练阶段的严格约束,从而降低模型过度约束的风险。
在三个下游任务上的实验,包括zero-shot图像分类、zero-shot图像文本检索和图像目标检测,验证了所提出的金字塔CLIP的有效性。特别是,在1500万图像-文本对的预训练数据量相同的情况下,基于ResNet-50/ViT-B32/ViT-B16的PyramidCLIP在ImageNet上的Zero-Shot分类top-1精度,比CLIP分别高出19.2%/18.5%/19.6%。
02
Motivation
最近,视觉语言预训练(VLP)取得了巨大的成功,其目的是通过对从web上获取的大规模图像-文本对模型进行预训练来提高下游视觉语言任务的准确性,而无需任何手动标注。主流VLP方法大致可分为两种范式,单流和双流。与单流模式相比,双流模式将图像编码器和文本编码器解耦,并分别提取图像和文本的特征,使双流模式对下游应用程序更加友好。
由于性能和效率的优势,双流模式占主导地位。CLIP对从互联网上收集的400M图像-文本对进行对比图像语言预训练,取得了惊人的效果。后来,DeCLIP和FILIP等方法通过在图像模态和文本模态中引入自监督,并在ViT patch token上引入更细粒度的对齐,从而改进了CLIP。
尽管现有的类CLIP方法在下游任务中取得了非常有希望的结果,但它们强烈依赖于图像-文本对具有高质量的假设:图像和文本具有良好的匹配性。理想情况下,匹配的图文对是完美的一对一对应,并且与其他未配对样本无相关性。然而,在事实中,如上图所示,这一假设并不容易满足。
首先,视觉模态和语言模态之间的语义不匹配通常存在于图像-文本对中,例如,(a)标题冗余:文本描述了太多冗余和细粒度的细节,而图像需要更简洁的标题;(b&#x