标签噪音下医学图像分类 Vision Foundation 模型的课程微调
深度神经网络在各种视觉任务中表现出了显著的性能,但其性能在很大程度上依赖于训练数据的质量。噪声标签是医学数据集中的一个关键问题,会显著降低模型的性能。以往的清洁样本选择方法没有利用视觉基础模型(VFM)良好的预训练特性,并且假设训练是从头开始的。在本文中,我们提出了一种用于标签噪声下医学图像分类的 VFM 课程微调范例 Cufit。我们的方法的动机是 VFM 的线性探测相对不受噪声样本的影响,因为它不更新特征提取器 VFM,从而对训练样本进行稳健分类。随后,通过从线性探测开始的清洁样本选择,对两个适配器进行了课程微调。我们的实验结果表明, Cufit 在各种医学图像基准上都优于以前的方法。具体地说,我们的方法在 40%的噪声率上分别超过了以前的基线 5.0、 2.1、 4.6 和 5.8,HAM10000、 Aptos-2019、 BroudMnist 和 OrgancMnist。此外,我们提供了广泛的分析来演示我们的方法对噪声标签检测的影响。例如,与以前的方法相比,我们的方法具有更高的标注准确率和标注召回率。
Uni-Med:通过 Connector-MoE 进行多任务学习的统一医学通才基础模型
多模式大型语言模型(MLLMS)作为各种视觉和语言任务的通用界面,已经显示出令人印象深刻的能力。然而,为医学领域的多任务学习构建统一的 MLLM 仍然是一个棘手的挑战。为了缓解多模态多任务优化的拉锯战问题,最近的进展主要集中在改进 LLM 组件上,而忽略了连接模态之间的差距。本文介绍了一种新的医学通才基础模型 Uni-Med,它由一个通用的视觉特征提取模块、一个连接符混合专家(CMoE)模块和一个 LLM 组成。 Uni-Med 得益于拟议的 CMoE,它利用一个设计良好的路由器,在连接器上混合了多名投影专家,实现了对拔河问题的高效解决,并可以执行六种不同的医疗任务,包括问题回答、视觉问题回答、报告生成、指称表情理解、指称表情生成和图像分类。据我们所知,Uni-Med 是第一个在连接器上解决多任务干扰的努力。广泛的烧蚀实验验证了在任何配置下引入CMoE 的有效性,平均性能提升高达 8%。进一步从梯度优化和参数统计的角度对拔河问题进行了解释分析。与以前最先进的医疗 MLLMS 相比, Uni-Med 在不同的任务上实现了具有竞争力或更优越的评估指标。
医学图像配准中的深度学习:魔法还是幻影?
经典的最优化方法和基于学习的方法是可变形图像配准中的两种主流方法。虽然基于优化的方法具有跨模式的普适性和稳健的性能,但基于学习的方法具有最佳性能,结合了弱监督和分期优化。然而,任何一种范式表现良好的确切条件在现有文献中都是笼罩着的,没有明确概述。在本文中,我们建立了每像素灰度分布和标签的互信息与经典配准方法的性能之间的显式对应关系。这种强烈的相关性暗示了这样一个事实,即基于学习的方法中的建筑设计不太可能影响这种相关性,因此,基于学习的方法的表现也不太可能受到影响。这一假设得到了最先进的经典方法和基于学习的方法的彻底验证。然而,基于学习的方法在弱监督的情况下,可以执行高保真强度和标签配准,这是经典方法不可能实现的。接下来,我们证明了这种高保真的特征学习不会转化为域移动的不变性,并且基于学习的方法对数据分布中的这种变化很敏感。最后,基于这些观察结果,我们提出了为给定的注册问题选择最佳范例的一般方法。
Medformer:用于医学时间序列分类的多粒度修补 Transformer
医学时间序列数据,如脑电(EEG)和心电(ECG),在医疗保健中起着至关重要的作用,如诊断脑和心脏疾病。现有的医学时间序列分类方法主要依赖于手工制作的生物标记物提取和基于 CNN 的模型,对为医学时间序列量身定做的转换器的探索有限。在本文中,我们介绍了一种专门为医学时间序列分类定制的多粒度修补Transformer–Medform。我们的方法结合了三种新的机制来利用医学时间序列的独特特征:跨通道修补来利用通道间相关性,多粒度嵌入来捕获不同尺度上的特征,以及两阶段(粒度内和粒度间)多粒度自关注来学习特征和粒度内和粒度之间的相关性。我们在五个公共数据集上进行了广泛的实验,包括主题相关和具有挑战性的主题独立设置。结果显示, Medform 的优势超过 10 个基线,在所有六个评估指标的五个数据集上获得了最高的平均排名。这些发现强调了我们的方法对医疗保健应用的重大影响,例如诊断心肌梗死、阿尔茨海默氏症和帕金森氏病。
E2 ENet:动态稀疏特征融合,实现准确有效的 3D 医学图像分割
深度神经网络以其优异的性能成为三维医学图像分割的主流方法。然而,深度神经网络不断增长的模型规模和计算成本已经成为将其部署在现实世界资源有限的硬件上的主要障碍。为了提高性能和效率,我们提出了一种三维医学图像分割模型,称为高效到高效网络(Efficient to Efficient Network,E2ENet),其中包含了两种参数和计算效率的设计。 I.动态稀疏特征融合(DSFF)机制:它在减少冗余的同时,自适应地学习融合信息丰富的多尺度特征。二、在 3D 卷积中限制深度移动:它利用 3D空间信息,同时保持模型和计算复杂性作为基于 2D 的方法。我们在 BTCV、AMOS-CT 和脑瘤分割挑战赛上进行了广泛的实验,表明在各种资源限制下,E2ENet 始终实现了比现有技术更好的准确性和效率之间的权衡。与之前性能最好的方法相比, E2ENet 在大规模挑战 Amos-CT 上实现了相当的准确性,同时在推理阶段节省了 68%以上的参数计数和 29%的 LOPS。
利用教科书补救领域转移的措施:医学图像分析的知识先验
虽然深度网络在分析自然图像方面取得了广泛的成功,但当应用于医学扫描时,它们往往在意外情况下失败。我们调查了这一挑战,并将重点放在模型对域转移的敏感度上,例如来自不同医院的数据,或者在胸部 X 光和皮肤病变图像的背景下,被性别、种族等人口统计变量混淆的数据。我们通过经验证明的一个关键发现是,现有的可视主干缺乏来自体系结构的适当先验,无法在这些环境中进行可靠的泛化。从医学培训中获得灵感,我们建议给予深度网络以自然语言交流的显性医学知识为基础的优先地位。为此,我们引入了知识增强瓶颈(KnoBo),这是一类概念瓶颈模型,它结合了知识先验,限制其与医学教科书或 PubMed 中发现的临床相关因素进行推理。 KnoBo 使用检索增强的语言模型来设计适当的概念空间,并配以识别概念的自动训练程序。我们在 20 个数据集的广泛领域转移上评估不同的知识资源和识别架构。在我们对两种成像模式的综合评估中, KnoBo 在混淆的数据集上的性能平均比微调模型高出 32.4%。最后,评估表明, PubMed 是一种很有前途的资源,可以降低医学模型对域转换的敏感度,在信息多样性和最终预测性能方面都优于其他资源。
HEALNet:异类生物医学数据的多模式融合
医学数据收集方面的技术进步,如高分辨率组织病理学和高通量基因组测序,促使对多模式生物医学建模的需求不断上升,特别是图像、表格和图形数据。大多数多模式深度学习方法使用特定于模式的体系结构,这些体系结构通常是单独训练的,无法捕获激励不同数据源集成的关键跨模式信息。本文提出了混合早期融合注意学习网络(HEALNet)–一种灵活的多模式融合体系结构,它 a)保存特定于通道的结构信息, b)捕获共享潜在空间中的跨通道交互和结构信息, c)能够有效地处理训练和推理过程中丢失的通道, d)通过学习原始数据输入而不是不透明的嵌入来实现直观的模型检查。我们对来自癌症基因组图谱(TCGA)的四个癌症数据集的完整幻灯片图像和多组数据进行了多模式生存分析。 HEALNet 实现了最先进的性能,大大改进了单模式和多模式融合基线,同时在缺少模式的情况下具有健壮性。
迈向医学分类的多维解释一致
医学图像分析领域缺乏可解释性具有重大的伦理和法律影响。现有的可解释方法在这个领域遇到了一些挑战,包括对特定模型的依赖,理解和可视化的困难,以及与效率相关的问题。为了解决这些局限性,我们提出了一种称为 MED-MICN(医学多维可解释概念网络)的新框架。 MED-MICN 提供了不同角度的可解释性对齐,包括神经符号推理、概念语义和显著图,这些都优于现有的可解释性方法。它的优势包括高预测精度、跨多个维度的可解释性,以及通过端到端概念标记过程实现自动化,从而在处理新数据集时减少对大量人工培训的需要。为了验证 MED-MICN 的有效性和可解释性,我们将其应用于四个基准数据集,并将其与基线数据进行比较。结果清楚地表明了我们的 Med-MICN 的优越的性能和可解释性。
NIPS 2024论文合集PDF版
由于关注点的不同,这篇博客可能无法包含所有该方向的论文。NIPS 2024 论文题目与摘要这份资料收录了NIPS 2024所有论文的标题和摘要,总共有3547页,而且是中英文对照的,读起来方便多了。
如果你对人工智能领域感兴趣,或者想找找灵感,这绝对是个好资源。翻一翻最新的研究,说不定就能找到一些新的想法或思路。平时闲下来的时候看看,既增长知识又能跟上最新的技术趋势,挺实用的。有空的话不妨看看,应该会有收获的。
NIPS 2024 收录所有论文题目和题目的合集:https://mbd.pub/o/bread/ZpyUlp5v
CVPR 2024 收录所有论文题目和题目的合集:https://mbd.pub/o/bread/ZpeYmplt