Diffusion Feedback Helps CLIP See Better

  • 来源:2024 arXiv
  • 作者:Wenxuan Wang1,2,3,∗ , Quan Sun1,∗ , Fan Zhang3 , Yepeng Tang4 , Jing Liu1,2 , Xinlong Wang3,†
  • 单位:1 Institute of Automation, Chinese Academy of Sciences; 2 School of Artificial Intelligence, University of Chinese Academy of Sciences; 3 Beijing Academy of Artificial Intelligence; 4 Institute of Information Science, Beijing Jiaotong University
  • Paper:https://arxiv.org/pdf/2407.20171
  • Code: https://rubics-xuan.github.io/DIVA/

背景

对比语言-图像预训练(CLIP)在跨领域和跨模态的开放世界表示方面表现出色,已成为各种视觉和多模态任务的基础。

然而,最近的研究表明,CLIP在视觉方面存在严重的缺陷,例如几乎无法区分方向、数量、颜色、结构等。这些视觉缺陷也限制了建立在CLIP之上的多模态大型语言模型(MLLMs)的感知能力。主要原因可能是因为CLIP高度依赖于图像-文本数据对,无法仅在图像数据上实现预期效果。具体因素:

(1)训练范式: 原始的对比学习策略旨在最小化正对之间的距离和最大化负面的视觉类标记和文本语义,导致视觉感知偏见,主要集中在高级语义信息而忽略视觉细节,如方向、数量、颜色和结构。因此,CLIP有时会将视觉上不同的图像编码到相似的嵌入中,这使得很难区分这些图像的细微变化。

(2)数据格式: 用于训练CLIP的图像-文本对中的文本的长度是有限的。正如(Zhang et al.,2024)所指出的,虽然文本标记的长度被限制为77,但CLIP的实际有效文本长度小于20。因此,这些图像-文本对中的文本数据本质上缺乏对相应的正样本图像中的视觉细节的描述。训练数据的这一基本局限性也导致了CLIP无法充分感知视觉细节信息。

在这里插入图片描述

为此,在这项工作中为CLIP模型提出了一种简单的后训练方法,通过自监督(self-supervised learning ,SSL)的扩散过程,解决CLIP无法区分细粒度视觉细节的问题,在很大程度上克服了其视觉缺陷。引入了DIVA(DIffusion model as a Visual Assistant for CLIP),它使用扩散模型作为CLIP的视觉助手,DIVA利用文本到图像扩散模型的生成性反馈来优化CLIP的判别表示,仅使用图像(无需相应的文本)。

方法流程

Diffusion Feedback来优化CLIP视觉细节表征

在这里插入图片描述

如图所示:DIVA主要由两个部分组成:(1)需要增强视觉感知能力的CLIP模型;(2)提供生成反馈的预训练扩散模型。

输入原始图像和空文本后,CLIP模型会编码相应的视觉特征,这些特征将与来自扩散模型文本编码器的空文本嵌入结合,为扩散过程提供条件。对于添加了噪声的图像,扩散模型尝试在上述条件下预测从前一步到当前步骤中添加的噪声。这个过程需要重复N次,因为对于每张图像,我们将从扩散模型的总步骤(如0-1000步)中随机选择N个状态(即2个)进行优化。在训练过程中,除了CLIP模型外,所有部分的权重都保持不变,训练目标只是最小化重建损失(即扩散反馈指导)。通过这种方式,通过约束扩散模型更准确地预测添加的噪声,CLIP的原始语义丰富的判别表示将通过扩散反馈逐渐优化为包含更多视觉细节的表示。

实验部分

实验细节

DIVA在8个NVIDIA-A100 80GB gpu上进行训练,全局批处理大小为640。我们采用随机梯度下降(SGD)优化器,学习速率为1e-4,动量为0.9,通过生成反馈来细化CLIP模型的表示。我们只使用相对高质量的 Conceptual-3M Dataset(Sharma et al.,2018)优化CLIP模型,在训练阶段中有4600个steps(即近1个epoch),以一种训练效率的方式提高CLIP的性能。在所有的实验中,我们调整了判别CLIP模型的所有参数,并在整个训练过程中保持扩散模型的参数冻结。

效果可视化

为了评估DIVA的有效性并展示其增强CLIP表示的潜力,在多模态理解和视觉感知任务上进行了全面的实验。
在这里插入图片描述

细粒度视觉感知评估

为了验证DIVA能够有效缓解CLIP模型固有的视觉能力缺陷,首先对各种现有的CLIP模型进行了实验(Radford等,2021b;Fang等,2023;Xu等,2023a;Zhai等,2023)。尽管这些CLIP模型在图像分辨率、模型大小、训练数据和方法方面存在差异,但DIVA始终提高了它们在MMVP-VLM基准测试上的性能,充分证明了DIVA在提高CLIP模型的细粒度视觉感知能力方面既通用又有效。

【值得注意的是,通过DIVA自我监督框架提供的不受"图像-文本"约束的生成指导,CLIP模型对几乎所有视觉模式的感知能力都有潜力得到增强。】

在这里插入图片描述

泛化能力评估

具体来说,采用OpenAIVIT-L-14(Radford et al., 2021b)和MetaCLIP ViT-H-14(Xu等,2023a),它们被广泛使用,并在MMVP-VLM基准测试上显示出最大的性能表现。在表4中展示了它们在27个数据集进行图像分类上的基准测试。表5展示了它们在2个数据集上进行图文检索的基准测试。结果证明:经过DIVA优化视觉表征之后的CLIP模型能够保留CLIP原本优秀的泛化能力。其次,鉴于这些任务严重依赖于CLIP视觉主干的全局语义理解,扩散模型引导的CLIP在这些任务上没有实现太大的性能提高是合理的。

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Sherry Wangs

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值