小样本学习又出新方法?与CLIP结合,拿下多篇CVPR!冲!

小样本学习+CLIP太好发文了,光是CVPR24就有多篇了!像是在100%噪声标签比例情况下,识别准确率依然出色的DeIL模型;性能远超SOTA的Transductive-clip模型……

主要在于:一方面,小样本学习一直是研究的热门,但也面临数据稀缺的困扰。而CLIP强大的跨模态表征能力,则能提供丰富的信息来源,助力模型提高准确性。且CLIP作为一个预训练好的多模态模型,已经包含了丰富的知识,通过微调少量的参数,便能来适应新任务,大大减少训练时间和资源消耗。另一方面,该思路目前还在上升期,还不算卷。在医疗诊断、自动驾驶、机器人交互等领域都有着广泛应用,创新机会很多。

为让大家能够紧跟领域前沿,早点发出自己的顶会,我给大家准备了11种创新思路和源码,一起来看!

论文原文+开源代码需要的同学看文末

Fully Fine-tuned CLIP Models are Efficient Few-Shot Learners

内容:本文提出了CLIP-CITE,这是一种针对CLIP模型的微调方法,旨在有限监督下提升其在特定任务上的专业性,同时保持在其他数据集上的通用性。该方法通过设计判别性视觉-文本对齐任务、监督对比学习以及视觉-语言相似性蒸馏技术,有效缓解了过拟合和灾难性遗忘问题。在少样本学习、基础到新任务泛化、领域泛化和跨领域泛化等设置下的广泛实验结果表明,CLIP-CITE在特定任务上取得了卓越性能,同时保留了CLIP模型的多功能性。

Domain Aligned CLIP for Few-shot Classification

内容:本文介绍了一种名为Domain Aligned CLIP(DAC)的样本高效领域适应策略,用于提升CLIP模型在少样本分类任务中的性能。DAC通过引入轻量级适配器和优化预计算的类别文本嵌入,分别改善了CLIP在目标分布上的 intra-modal(图像-图像)和 inter-modal(图像-文本)对齐,而无需微调主模型。实验表明,DAC在11个图像分类任务上平均提升了2.3%的16-shot分类性能,并在4个OOD鲁棒性基准上展现出竞争力。

Learning to Adapt CLIP for Few-Shot Monocular Depth Estimation

内容:本文提出了一种基于少量样本的学习方法,用于适应预训练的视觉-语言模型CLIP进行单目深度估计。该方法通过为不同场景分配不同的深度箱(depth bins),并在推理过程中由模型选择,以平衡训练成本和泛化能力。此外,还引入了可学习的提示(prompts)来预处理输入文本,将易于人类理解的文本转换为模型易于理解的向量,进一步提升性能。在NYU V2和KITTI数据集上的实验结果表明,仅使用每个场景的一张图像进行训练,该方法的性能超过了以往的最佳方法,最高达10.6%的提升。

AMU-Tuning: Effective Logit Bias for CLIP-based Few-shot Learning

内容:本文提出了一种名为AMU-Tuning的新方法,用于基于CLIP的少样本学习。该方法通过分析现有方法,从逻辑偏差(logit bias)的角度出发,提出了一个统一的公式来改进CLIP在少样本学习中的性能。AMU-Tuning通过利用辅助特征、多分支训练的特征初始化线性分类器以及基于不确定性的融合策略来学习有效的逻辑偏差。在多个基准测试上的实验结果表明,AMU-Tuning在性能上超越了现有的方法,并且在计算成本上更为高效。

码字不易,欢迎大家点赞评论收藏!

关注下方《AI科研技术派》

回复【小样本结合】获取完整论文

👇

### EVA-CLIP 模型介绍 EVA-CLIP 是一种先进的多模态大模型,旨在改进特征表示并加速收敛。该模型利用了预训练的EVA模型,这些模型结合了图像-文本对比学习的高级语义和掩码图像建模的几何及结构捕捉能力[^1]。 #### 特征优势 - **更好的初始化**:采用预训练的EVA权重来初始化EVA-CLIP的图像编码器,从而显著提升了在各种零样本基准上的表现,并且加速并稳定了训练过程。 - **强大的迁移学习能力**:由于使用了高质量的预训练模型,EVA-CLIP能够在新的任务上快速适应,提供更加鲁棒的表现。 - **高效的多模态理解**:通过融合视觉和文本信息,EVA-CLIP能够更好地理解和处理复杂的跨模态数据集。 ### 使用方法 要使用EVA-CLIP模型,通常需要遵循以下几个方面: #### 安装依赖库 首先安装必要的Python包,可以使用pip命令完成: ```bash pip install transformers torch ``` #### 加载预训练模型 加载已经预先训练好的EVA-CLIP模型非常简单,只需要几行代码即可实现: ```python from transformers import AutoModel, AutoTokenizer model_name = "your_eva_clip_model_identifier" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModel.from_pretrained(model_name) ``` #### 输入准备 对于输入的数据,应该按照如下方式进行处理: - 对于文本部分,可以通过`tokenizer.encode_plus()`函数将其转化为适合喂入网络的形式; - 图像则需经过特定的预处理步骤,比如调整大小、归一化等操作,具体取决于所使用的框架版本。 #### 推理流程 一旦准备好输入数据之后,就可以调用模型来进行推理计算了: ```python with torch.no_grad(): outputs = model(**inputs) ``` 这里假设`inputs`包含了之前提到的文字token序列以及图片张量。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值