CLIP,一个由OpenAI开发的多模态预训练模型。近年来由于多模态的爆火,CLIP的研究热度也呈爆发式增长,CVPR 2024上只要是多模态方向的,几乎都在用CLIP。
CLIP被广泛应用于视觉理解、图像问答、机器人/具身智能等多个领域,这源于它卓越的视觉表征能力、良好的可扩展性,以及强大的跨模态连接文本与图像的能力。但显然,CLIP仍然有许多问题等待改进,比如处理细节和复杂关系的能力有限、对计算量的要求太高...
目前,我们对CLIP的改进创新基本围绕这些问题展开,且已经出现了不少值得学习的研究成果,比如ECCV 2024上的 AdaCLIP的框架,在零样本异常检测中实现了显著的性能提升!还有NeurIPS 2024的TripletCLIP、AAAI 2024的Structure-CLIP...
可见各大顶会上有关CLIP的改进研究真的是相当火热。本文整理了11个CLIP最新改进方案,全部都是顶会paper,基本都有代码,有论文需求的同学可以直接拿来作参考。
全部论文+开源代码需要的同学看文末
[ECCV2024] AdaCLIP: Adapting CLIP with Hybrid Learnable Prompts for Zero-Shot Anomaly Detection
方法:论文提出了一个名为AdaCLIP的框架,它是对预训练的视觉-语言模型(VLM)CLIP的改进,用于零样本异常检测任务。AdaCLIP通过引入可学习的提示(prompts)来增强CLIP模型&