多模态对比学习太香了!双斩CVPR/NeurIPS!新成果及开源代码已扒

聊一个多模态学习的核心分支方向:多模态对比学习。它最近在各大顶会上(尤其是CVPR)可是相当受欢迎,比如NeurIPS上的CILPLoss模块,性能达到新SOTA;还有CVPR上的BadCLIP方法、HACL方法...

多模态对比学习的优势在于它不仅能提升模型泛化与鲁棒性,还能降低标注成本,尤其在多模态表征学习、跨模态对齐、预训练模型等领域表现相当好,研究潜力巨大。这方向的创新路径也很广泛,包括动态融合、处理缺失模态、引入因果推理等。

不过根据当下的研究进展,建议大家还是从模型优化(动态融合)、数据策略(对抗训练)、可信性提升(可解释性)及跨领域应用(医疗/生成模型)等多角度切入做创新。

如果需要参考,可直接领取我整理的15篇多模态对比学习2025新论文,基本都有代码,觉得有用也记得点个赞支持下~

全部论文+开源代码需要的同学看文末

Badclip: Dual-embedding guided backdoor attack on multimodal contrastive learning

方法:本文提出了一种针对多模态对比学习的后门攻击方法BadCLIP,通过优化视觉触发器使其在嵌入空间中接近目标文本语义,同时使中毒样本与目标视觉特征对齐,从而躲避检测并抵抗微调消除,显著提高了攻击成功率。

创新点:

  • 提出了一种双嵌入引导的后门攻击框架,通过优化视觉触发器使其在嵌入空间中接近目标文本语义,从而使后门难以检测和解除。

  • 优化视觉触发器,使中毒样本与目标视觉特征对齐,增强后门在模型微调时的稳定性,抵抗微调消除。

  • 首次针对多模态对比学习模型设计了难以被检测和消除的后门攻击,显著提高了攻击成功率,并在多种防御场景下表现出色。

Hallucination augmented contrastive learning for multimodal large language model

方法:论文提出了一种名为“幻觉增强对比学习(HACL)”的方法,通过对比学习将幻觉文本作为负样本,拉近非幻觉文本与视觉样本的表示,推远幻觉文本与非幻觉文本的表示,从而减少多模态大语言模型中的幻觉现象。

创新点:

  • 提出了一种新的训练方法——幻觉增强跨模态对比学习 (HACL),通过引入由多模态语言模型生成的幻觉文本作为“难负样本”,显著改善了视觉和文本表示的对齐效果,同时减少了模型产生幻觉的几率。

  • 通过实验分析了不同训练策略对模型性能的影响,揭示了在预训练初期激活语言模型可能导致“灾难性遗忘”,而激活视觉编码器则能带来适度性能提升。

Cliploss and norm-based data selection methods for multimodal contrastive learning

方法:论文提出了两种数据选择方法negCLIPLoss和NormSim,用于提升多模态对比学习。negCLIPLoss通过改进CLIPScore来更准确评估数据质量,NormSim则通过计算预训练数据与目标数据的视觉相似性来筛选相关数据。

创新点:

  • negCLIPLoss 通过在经典 CLIPScore 之外添加对比样本间的归一化项,从而更准确地衡量数据质量。

  • 设计了 p-Norm Similarity Score(NormSim),用于在已知下游任务时衡量预训练数据与目标数据的相似性。

  • 通过将 negCLIPLoss 和 NormSim 与现有最佳技术(如 DFN 和 HYPE)结合,显著提升了下游任务的平均性能。

DiffCL: A Diffusion-Based Contrastive Learning Framework with Semantic Alignment for Multimodal Recommendations

方法:本文提出了一种名为DiffCL的多模态推荐框架,通过扩散模型生成对比视图进行对比学习,并利用ID嵌入进行语义对齐,有效缓解了多模态数据噪声和数据稀疏性问题,提升了推荐性能。

创新点:

  • 引入扩散模型进行图对比学习,提出了扩散式对比学习框架(DiffCL),通过生成高质量的对比视图,有效解决了自监督任务中由于噪声导致的推荐准确率下降问题。

  • 设计稳定的ID嵌入方式,用于指导跨模态语义对齐,显著增强了不同模态之间的语义一致性。

  • 提出行为感知的多模态特征融合方法MGCN,通过自适应学习不同模态特征来净化模态信息,并结合边缘剪枝算法减少噪声边。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“多模态对比”获取全部方案+开源代码

码字不易,欢迎大家点赞评论收藏

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值