腾讯&上交&浙大提出PyramidCLIP，进行层次内语义对齐和跨层次关系对齐，Zero-Shot效果优于CLIP！...

最新推荐文章于 2023-11-02 18:48:32 发布

我爱计算机视觉

最新推荐文章于 2023-11-02 18:48:32 发布

阅读量1k

点赞数 3

文章标签：大数据自然语言处理算法 python 计算机视觉

本文链接：https://blog.csdn.net/moxibingdao/article/details/125195554

版权

PyramidCLIP是腾讯、上交大和浙大提出的一种新的视觉语言预训练方法，通过层次内语义对齐和跨层次关系对齐，改善了CLIP的Zero-Shot效果。这种方法在ImageNet上的Zero-Shot分类精度超越了CLIP，且在多个下游任务中表现出优越性。

摘要由CSDN通过智能技术生成

关注公众号，发现CV技术之美

本篇文章分享论文『PyramidCLIP: Hierarchical Feature Alignment for Vision-language Model Pretraining』，由腾讯&上交&浙大（沈春华）提出PyramidCLIP，进行层次内语义对齐和跨层次关系对齐，ImageNet上Zero-Shot效果优于CLIP！

详细信息如下：

论文链接：https://arxiv.org/abs/2204.14095

摘要

大规模视觉语言预训练在下游任务中取得了可喜的成果。现有的方法高度依赖于这样一个假设，即从互联网上抓取的图像-文本对是完全一对一对应的。然而，在实际场景中，这一假设很难成立：通过对图像的关联元数据进行爬取获得的文本描述通常存在语义不匹配和相互兼容性问题。

为了解决这些问题，作者引入了金字塔CLIP（PyramidCLIP），它构建了一个具有不同语义层次的输入金字塔，并通过层次内语义对齐（intra-level semantics alignment）和跨层次关系对齐（cross-level relation alignment）以层次的形式对齐视觉元素和语言元素。此外，作者还通过soften负样本（未配对样本）的损失来调整目标函数，以削弱预训练阶段的严格约束，从而降低模型过度约束的风险。

在三个下游任务上的实验，包括zero-shot图像分类、zero-shot图像文本检索和图像目标检测，验证了所提出的金字塔CLIP的有效性。特别是，在1500万图像-文本对的预训练数据量相同的情况下，基于ResNet-50/ViT-B32/ViT-B16的PyramidCLIP在ImageNet上的Zero-Shot分类top-1精度，比CLIP分别高出19.2%/18.5%/19.6%。

Motivation

最近，视觉语言预训练（VLP）取得了巨大的成功，其目的是通过对从web上获取的大规模图像-文本对模型进行预训练来提高下游视觉语言任务的准确性，而无需任何手动标注。主流VLP方法大致可分为两种范式，单流和双流。与单流模式相比，双流模式将图像编码器和文本编码器解耦，并分别提取图像和文本的特征，使双流模式对下游应用程序更加友好。

由于性能和效率的优势，双流模式占主导地位。CLIP对从互联网上收集的400M图像-文本对进行对比图像语言预训练，取得了惊人的效果。后来，DeCLIP和FILIP等方法通过在图像模态和文本模态中引入自监督，并在ViT patch token上引入更细粒度的对齐，从而改进了CLIP。