多模态融合有多火,自不必多说,而这其中最好出创新的方向,首推多模态融合可解释性。
一方面,相比其他方向,该领域目标还在快速发展期,同时也有不少优秀成果和源码,可以参考。最近模MRP便登顶Nature,CVPR等顶会上其也是香饽饽!
另一方面,医疗、金融、自动驾驶等热门领域,不仅对多模态融合有强烈需求(数据特点决定),更是对可解释性有超高依赖(领域决策风险高)。因而对多模态融合的可解释性研究成为迫切需要,且结合具体的场景,也比较好做微创新。
想发论文的伙伴可以多关注:动态融合、模型轻量化、跨模态对齐、半监督学习……为让大家能够更快掌握,早点发出顶会,我还给大家准备了12篇必读论文,开源代码已扒。
论文原文+开源代码需要的同学看文末
论文:CrisisKAN: Knowledge-infused and Explainable Multimodal Attention Network for Crisis Event Classification
内容
该论文介绍了一种名为CrisisKAN的知识注入和可解释多模态注意力网络,用于危机事件分类。该网络通过结合图像和文本信息,并融入维基百科的外部知识,解决了现有模型在图像和文本模态特征融合时的语义鸿沟问题。
论文:Traj-Explainer: An Explainable and Robust Multi-modal Trajectory Prediction Approach
内容
该论文提出了一种名为 Traj-Explainer 的可解释多模态轨迹预测方法,旨在提高自动驾驶中轨迹预测模型的解释性和鲁棒性。该方法通过改进的条件扩散模型捕捉交通场景中的多模态轨迹模式,并利用改进的 Shapley 值模型合理学习全局和场景特征的重要性。
论文:Advancing Histopathology-Based Breast Cancer Diagnosis: Insights into Multi-Modality and Explainability
内容
该论文综述了基于多模态和可解释性技术的乳腺癌组织病理学诊断领域的最新进展。强调了多模态方法在提高乳腺癌诊断准确性方面的潜力,并探讨了可解释人工智能(XAI)在解释复杂算法决策过程中的重要性。通过分析现有的多模态数据集、技术方法以及可解释性在组织病理学诊断中的应用,文章识别了当前研究的空白,并为未来的研究方向和该领域的战略发展提供了指导。
论文:TransMA: an explainable multi-modal deep learning model for predicting properties of ionizable lipid nanoparticles in mRNAdelivery
内容
该论文提出了一种名为 TransMA 的可解释多模态深度学习模型,用于预测用于 mRNA 递送的可电离脂质纳米颗粒(LNPs)的转染效率。TransMA 采用多模态分子结构融合架构,通过分子 3D Transformer 捕获分子的三维空间特征,通过分子 Mamba 捕获一维分子特征,并设计了 mol-attention 机制块以对齐和融合粗粒化和细粒化的原子特征,揭示原子空间和序列结构之间的关系。
关注下方《人工智能学起来》
回复“可解释多模态”获取全部论文+开源代码
码字不易,欢迎大家点赞评论收藏