发顶会首选:多模态+持续学习!思路找对,高分轻松拿捏!

今天给大家推荐一个好发顶会的创新点:多模态+持续学习。

多模态的火热程度大家懂的都懂,李沐大佬都很看好,而持续学习,作为一种让模型能够不断适应新数据和场景的方法,同样具有非常高的创新性,将这两者相结合,我们就可以获得1+1>2的效果!

这是因为,这种结合可以在帮助模型处理复杂信息的同时,让模型不断适应新的数据和场景,从而拥有更强的鲁棒性和稳定性、更高的泛化能力,也能适用于更多场景,可以说为跨领域的融合和创新提供了新的思路和方法。

目前各大顶会(CVPR、ICCV、NeurIPS等)上这方向优秀成果很多,热度可见一斑。如果大家感兴趣,可以围绕基于正则化、基于架构/重放/提示搞创新,比较主流好找参考。我这边也整理好了17篇多模态+持续学习参考论文,不想多花时间的同学可以直接来领~

全部论文+开源代码需要的同学看文末

基于正则化

CTP: Towards Vision-Language Continual Pretraining via Compatible Momentum Contrast and Topology Preservation

方法:论文提出了一个新的算法CTP,这种方法特别关注于处理视觉和语言的联合表示学习,并在连续的任务中保持模型性能,以应对灾难性遗忘的问题。论文还贡献了一个包含超过一百万产品图像-文本对的基准数据集P9D,用于支持VLCP的研究。

创新点:

  • 引入了第一个视觉-语言连续预训练(VLCP)的基准数据集P9D,该数据集包含超过一百万的产品图像-文本对,来自9个不同行业。

  • 提出了一种新颖的算法——兼容动量对比与拓扑保持(CTP)。该方法通过保持兼容的动量模型,吸收新旧知识,以分别调整单模态和多模态编码器。

基于架构

CLAP4CLIP: Continual Learning with Probabilistic Finetuning for Vision-Language Models

方法:论文提出了一种名为CLAP的方法,用于对预训练的视觉-语言模型(如CLIP)进行概率性微调,以适应持续学习的场景。作者强调了在持续学习环境中,对不确定性的建模和估计的重要性,并提出了一种基于变分推断的框架来学习与视觉特征对齐的任务特定文本特征的后验分布。

创新点:

  • 引入了一种基于变分推断的概率微调方法,以应对跨模态交互的挑战。

  • 采用轻量级的任务特定适配器模块来建模任务特定分布,从而丰富了模型的模块化特性。

  • CLAP框架展示了其在不确定性量化方面的优越性,包括在现有持续学习设置中的新数据检测和样本选择。

基于重放

VQACL:ANovelVisual Question Answering Continual Learning Setting

方法:本文提出了一种新的视觉问答持续学习框架VQACL,通过双层任务序列和新颖的组合测试模拟多模态数据流变化,分析现有持续学习方法在多模态任务中的遗忘问题,并通过样本特异性和样本不变性特征学习实现更具判别性和广泛适应性的表示,显著提升模型的组合能力和泛化能力。

创新点:

  • 提出了一种新的持续学习设置,称为VQACL,用于模拟真实世界的生成式视觉问答(VQA)。

  • 开发了一种简单但有效的表示学习方法,用于持续VQA。

  • VQACL在VQA v2和NExT-QA数据集上实现了显著的性能提升,证明了方法的有效性和组合能力。

基于提示

Decouple Before Interact: Multi-Modal Prompt Learning for Continual Visual Question Answering

方法:论文提出了一个名为TRIPLET的方法,它基于预训练的视觉-语言模型,通过解耦提示和提示交互策略来捕捉模态之间的复杂交互,以适应持续学习环境中的新问题和新图像。作者明确考虑了多模态特性,并从视觉和语言两个角度出发,提出了一个全面的CL-VQA框架,包括连续视觉场景、连续语言场景和连续视觉-语言场景。

创新点:

  • 提出了一个名为TRIPLET的新方法,用于连续视觉问答(CL-VQA)任务。

  • 提出了一个全面的CL-VQA公式,涵盖多模态和单模态视角。

  • 建立了两个新的CL-VQA基准(CL-VQA2.0和CL-TDIUC),用于对CL-VQA进行实证评估。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“多模持续”获取全部方案+开源代码

码字不易,欢迎大家点赞评论收藏

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值