大模型论文汇总 | 如何蒸馏CLIP？十篇CLIP高效知识蒸馏方法分享！

最新推荐文章于 2025-03-27 13:11:51 发布

AI Agent开发

最新推荐文章于 2025-03-27 13:11:51 发布

阅读量1.6k

点赞数 11

文章标签：人工智能 AI大模型 LLM ai 大模型知识蒸馏 CLIP

本文链接：https://blog.csdn.net/m0_56255097/article/details/143563322

版权

本文简单汇总了十篇CLIP蒸馏相关的论文：

1、A Unified View of Masked Image Modeling

论文链接：https://arxiv.org/abs/2210.10615

本文提出了一种名为MaskDistill的新方法，旨在解决大规模视觉Transformer训练中的数据标签需求量大的问题。具体来说，它试图通过一种统一的视角来审视现有的掩码图像建模（Masked Image Modeling）方法，并基于此视角改进这些方法，以提高在各种下游任务上的性能。

2、MILAN: Masked Image Pretraining on Language Assisted Representation

论文链接：https://arxiv.org/abs/2208.06049

本文利用CLIP文本特征来作为自监督预训练中masked image autoencoder重建目标，设计了提示解码器来高效地重建被mask的图像块特征，并提出了一种语义感知的掩码机制帮助模型更好的学习语义相关区域。

3、DIME-FM : DIstilling Multimodal and Efficient Foundation Models

论文链接:https://arxiv.org/abs/2303.18232

本文通过使用不配对的图像文本数据来进行蒸馏，显著降低数据准备的成本，并提出两种新的蒸馏损失：VL Score Distillation Loss和Pseudo-VL Score Distillation Loss 以及一个正则化项Uni-Modal Distance Preserving Regularizer。

4、Contrastive Learning Rivals Masked Image Modeling in Fine-tuning via Feature Distillation

论文链接:https://arxiv.org/abs/2205.14141

本文提出一种特征蒸馏方法，利用教师模型的特征图作为学生学习的目标，为了解决不同预训练模型特征差异大的问题，本文对教师模型的特征图进行白化处理，与此同时学生网络使用共享的相对位置偏置来增强相对位置的感知能力。

5、Robust Cross-Modal Representation Learning with Progressive Self-Distillation

论文链接：https://arxiv.org/abs/2204.04588

文章指出像CLIP这种vision-language mapping的方法，没有考虑到一些negative samples之间的相似性。所以当数据很脏的时候，效果会不太好。本文提出了一种利用渐进式的自蒸馏方法来提供一个soft image-text alignments使得从noisy data里学习得更高效。

这个alignments其实就是用teacher生成的soft-target来给InfoNCE loss加权。如图所示，一个batch的image-text pairs会被划分成两部分，一部分用InfoNCE loss来训练teacher，一部分会用teacher生成的soft-target来对InfoNCE loss做re-weight。后者的比例随着训练进行，会越来越大。

6、ConaCLIP: Exploring Distillation of Fully-Connected Knowledge Interaction Graph for Lightweight Text-Image Retrieval

论文链接:https://arxiv.org/pdf/2305.17652

本文引入全连接的知识交互图（Cona），在教师-学生对或学生-学生对之间进行跨模态学习。
设计了包括四种学习类型：模内教师-学生学习、模内学生-学生学习、跨模态教师-学生学习、跨模态学生-学生学习，同时提出多种有效的监督策略，包括InfoNCE损失、特征距离（FD）损失、相似度距离（SD）损失和KL散度（KL-Div）损失。

7、Transferring Pre-trained Multimodal Representations with Cross-modal Similarity Matching

论文链接:https://arxiv.org/abs/2301.02903

本文利用多个锚点（由文本提示生成的文本表示）来解决单一实例相似性信号不足的问题，通过最大化教师模型和学生模型之间归一化表示的余弦相似度，来匹配教师模型和学生模型之间的跨模态相似性分布。为缓解输入文本提示中的词汇歧义问题，设计了基于上下文的提示增强方法，通过添加上下文文本（例如维基百科描述或层次标签）来增强基本提示。

这种方法可以改善文本提示的编码，从而减少教师模型嵌入空间中的图像-文本对齐差异。在将CLIP的表示转移到学生模型之前，先使用自监督学习方法（如SimCLR）对目标学生模型进行预训练，这为学生模型提供了一个更好的初始状态，使其更容易模仿教师模型的嵌入空间。

8、TinyCLIP: CLIP Distillation via Affinity Mimicking and Weight Inheritance

论文链接:https://arxiv.org/pdf/2309.12314

本文提出一种亲和力模仿 (Affinity Mimicking)方法，利用教师模型中图像和文本嵌入的余弦相似性，以促进学生模型模仿教师模型在视觉-语言亲和空间中学习跨模态特征对齐的行为。

同时提出一种权重继承 (Weight Inheritance)方法，该技术将教师模型的预训练权重传递给学生模型。这为学生模型提供了良好的初始化，从而加速了蒸馏过程。在此基础上本文提出一种多阶段渐进式蒸馏方法(Multi-Stage Progressive Distillation)，通过每个阶段适度的压缩（例如25%），避免性能大幅下降，使训练保持稳定。

9、CLIP-KD: An Empirical Study of Distilling CLIP Models

论文链接:https://arxiv.org/abs/2307.12732

本文提出了几种蒸馏策略，包括对比关系蒸馏（Contrastive Relational Distillation, CRD）、特征蒸馏（Feature Distillation, FD）、掩码特征蒸馏（Masked Feature Distillation, MFD）、梯度蒸馏（Gradient Distillation, GD）、交互式对比学习（Interactive Contrastive Learning, ICL）和增强特征蒸馏（Augmented Feature Distillation, AFD）。

10、CLIP-CID: Efficient CLIP Distillation via Cluster-Instance Discrimination

论文链接：https://arxiv.org/abs/2408.09441

本文将集群级蒸馏（Cluster-level Distillation）和实例级蒸馏（Instance-level Distillation）相结合，通过优化softmax分类损失和Kullback-Leibler散度，实现集群级蒸馏损失，使用教师模型的图像和文本嵌入来监督学生模型的文本和图像嵌入。