最近发现二区及以上的期刊、会议上,多模态融合+迁移学习论文的收录量飙升!性能都炸裂好!比如模型CM3T,训练参数量直降500%;模型MultiFusionNet,则准确率近100%!
主要在于,其解决了多模态技术的重大缺陷,各领域需求旺盛,且竞争还没白热化,非常好出创新点!具体点说,多模态虽爆火,但一直面临模态异构性、对齐困难、跨模态迁移效率低等的挑战。而这两者结合,能够优势互补,为问题的解决,提供全新的思路。此外,医疗、机器人、自动驾驶等领域均有落地需求。
因此,非常推荐想发论文的伙伴,赶紧上车。目前好中稿的思路有:结合强化学习、引入跨模态对齐和知识蒸馏技术、设计动态自适应融合策略……
为方便大家理解和运用,找到更多idea启发,我还给大家准备了17篇必读论文和源码!
论文原文+开源代码需要的同学看文末
CM3T: Framework for Efficient Multimodal Learning for Inhomogeneous Interaction Datasets
内容:本文介绍了一个名为CM3T的框架,旨在高效地处理非均匀交互数据集中的多模态学习任务。CM3T通过引入多头视觉适配器和交叉注意力适配器,结合前缀调整(Prefix Tuning)技术,能够在不改变预训练模型主干架构的情况下,仅通过训练少量的适配器参数,实现对新任务、新数据集和新模态的快速适应。实验表明,CM3T在多个数据集上取得了与全微调相当甚至更好的性能,同时显著减少了训练参数量和计算资源消耗。
TelME: Teacher-leading Multimodal Fusion Network for Emotion Recognition in Conversation
内容:本文提出了一种名为TelME 的多模态情感识别网络,用于对话中的情感识别任务(ERC)。TelME 通过跨模态知识蒸馏将文本模态中的情感知识传递给非语言模态(音频和视觉),从而增强弱模态的表现,并通过一种基于注意力的模态转移融合方法将多模态特征进行融合。实验表明,TelME 在多说话人的对话情感识别数据集 MELD 上达到了最先进的性能,并在 IEMOCAP 数据集上表现出色,尤其在多模态融合和少数情感类别识别方面表现优异。
UniGraph2: Learning a Unified Embedding Space to Bind Multimodal Graphs
内容:本文提出了UniGraph2,这是一个用于多模态图的新型跨领域图基础模型。UniGraph2 旨在通过结合图结构和多模态信息(如文本、图像等),学习一个统一的低维嵌入空间,从而实现对多模态图的有效表示和跨图域的迁移学习。模型通过模态特定的编码器和图神经网络(GNN)进行特征编码,并采用混合专家模块对不同领域和模态的特征进行对齐和融合。此外,UniGraph2 引入了一种跨领域多图预训练算法,通过特征重建和结构重建任务来优化模型性能。
MedMimic: A Physician-Inspired Multimodal Fusion Framework for Early Diagnosing Fever of Unknown Origin
内容:本文提出了一种名为MedMimic的多模态融合框架,用于早期诊断不明原因发热。该框架通过结合预训练模型提取的高维 PET/CT 数据特征以及临床数据,利用可学习的自注意力机制将多模态信息整合为紧凑且具有区分性的特征表示,用于下游分类任务。研究使用了来自四川大学华西医院的 416 名 FUO 患者的数据,并将其分解为七个分类任务以评估模型性能。实验结果表明,MedMimic 在这些任务中实现了 0.8654 到 0.9291 的宏平均接收者操作特征曲线下面积,优于传统机器学习和单一模态深度学习方法。该研究展示了利用大规模预训练架构结合深度学习在复杂临床场景中的潜力,为疾病分类提供了新的视角和解决方案。
码字不易,欢迎大家点赞评论收藏!
关注下方《AI科研技术派》
回复【迁移多模态】获取完整论文
👇