上海AI Lab&罗格斯大学&港中文提出CLIP-Adapter，用极简方式微调CLIP中的最少参数！...

最新推荐文章于 2024-08-27 23:11:10 发布

我爱计算机视觉

最新推荐文章于 2024-08-27 23:11:10 发布

阅读量1.9k

点赞数 2

文章标签：算法 python 计算机视觉神经网络机器学习

本文链接：https://blog.csdn.net/moxibingdao/article/details/121710261

版权

本文介绍由上海AI Lab、罗格斯大学和港中文联合提出的CLIP-Adapter，该方法通过在CLIP模型上添加轻量级特征适配器进行微调，以改善视觉语言模型，尤其适用于few-shot学习场景。实验证明，CLIP-Adapter在多个视觉分类任务中优于其他基线方法。

摘要由CSDN通过智能技术生成

关注公众号，发现CV技术之美

本文分享论文『CLIP-Adapter: Better Vision-Language Models with Feature Adapters』，由上海AI Lab&罗格斯大学&港中文联合提出《CLIP-Adapter》，用极简方式微调CLIP中的最少参数！

详细信息如下：

论文链接：https://arxiv.org/abs/2110.04544
项目链接：https://github.com/gaopengcuhk/clip-adapter

导言：

大规模对比视觉语言预训练在视觉表征学习方面取得了显著进展。与由固定的离散标签集训练的传统视觉系统不同，最近的工作引入了一种新的范式，以直接学习在开放词汇表环境中将图像与原始文本对齐。在下游任务中，使用精心选择的文本提示进行Zero-Shot预测。为了避免prompt工程，上下文优化被提出用来学习连续向量作为任务特定的prompt，并使用few-shot训练样本。

在本文中，作者展示了除了prompt tuning之外，还有一种替代方法可以实现更好的视觉语言模型。prompt tuning用于文本输入，但作者提出CLIP-Adapter在视觉或语言分支上使用特征适配器进行微调。

具体而言，CLIP-Adapter采用额外的瓶颈层来学习新特征，并与原始预训练特征进行残差样式的特征混合。因此，CLIP-Adapter在保持简单设计的同时，能够超越上下文优化。各种视觉分类任务的实验和广泛消融研究证明了本文方法的有效性。

Motivation

视觉理解任务，如分类、目标检测和语义分割，在更好的架构设计和大规模高质量的数据集上得到了显著改进。然而，为每个视觉任务收集大规模高质量数据集是劳动密集型的，而且成本太高，无法扩展。为了解决这个问题，“预训练-微调”范式，即对大规模数据集（如ImageNet）进行预训练，然后对各种下游任务进行网络调整，已在视觉领域广泛采用。然而，这些方法仍然需要大量标注，以便对许多下游任务进行微调。