NeurIPS 2024 | HEALNet:异构生物医学数据的多模态融合

今天介绍的是被NeurIPS 2024接收的论文HEALNet: Multimodal Fusion for Heterogeneous Biomedical Data,该论文提出了一种灵活的多模态融合架构用于多模态生物医学建模。

1 摘要

医疗数据收集方面的技术进步,如高通量基因组测序和数字高分辨率组织病理学,促使对多模态生物医学建模的需求不断增加,特别是对图像、表格和图形数据的需求。大多数多模态深度学习方法使用特定于模态的架构,这些架构通常是单独训练的,无法捕获激发不同数据源集成的关键跨模态信息。该论文提出了混合早期融合注意学习网络(HEALNet)——一种灵活的多模态融合架构,它:a)保留特定于模态的结构信息,b)捕获共享潜在空间中的跨模态交互和结构信息,c)可以在训练和推理期间有效处理缺失的模态,d)通过学习原始数据输入而不是不透明的嵌入来实现直观的模型设计。作者对来自癌症基因组图谱(TCGA)的四个癌症数据集的全幻灯片图像和多组学数据进行了多模态生存分析。与其他端到端训练融合模型相比,HEALNet实现了最先进的性能,大大改善了单模态和多模态基线,同时在缺少模态的情况下保持了鲁棒性。

2 引文

多模态机器学习的一个关键挑战是多模态融合,即将结构异构的数据集成到一个共同的表示中,从而降低数据的维数,同时保留显著的生物信号。然而,医疗数据通常由2D或3D图像(组织病理学和放射学)、图形(分子数据)和表格数据(多组学、电子健康记录)组成,其中跨模态关系通常不透明和复杂,模态通常不共享语义,并且对常见表示的探索较少。融合阶段描述了多模态表示从原始(单模态)数据中去除的程度,通常分为早期、中期和晚期融合。

早期的融合方法将原始数据结合在一起,从而允许同时从所有数据模态中训练单个模型。然而,这些方法中的大多数都使用简单的操作,例如串联,它会删除结构信息,或者采用Kronecker积,当应用于多模态和大型矩阵时,可能导致维度爆炸。另一方面,后期融合为每个模态训练单独的模型,这允许捕获显著的结构信息,但阻止模型学习模态之间的相互作用。中间融合方法试图通过在组合每种模态之前学习低级表示(嵌入)来克服这种权衡。这可以在利用每个模态的内部数据结构的同时发现跨模态交互。然而许多中间融合方法的问题是,学习到的潜在表示对人类专家来说是不可解释的,并且处理缺失的模态通常是嘈杂的。为了克服这些问题,作者假设需要更复杂的早期融合方法,称之为混合早期融合,即:a)保留结构信息;b)学习跨模态相互作用;c)处理原始数据,从而允许模型内可解释性。

在本文中,作者提出了混合早期融合注意学习网络(HEALNet),这是一种新型的混合早期融合方法,它利用了早期和中期融合方法的优点,并可扩展到任何数量的模态。HEALNet背后的主要思想是在迭代注意力体系结构中并行使用共享和特定于模态的参数空间。具体来说,一个共享的潜在瓶颈阵列通过网络并迭代更新,从而捕获共享信息并学习数据模态之间的隐性交互。同时,学习每个模态的注意权值,并在各层之间共享以学习特定于模态的结构信息。作者展示了HEALNet对来自癌症基因组图谱(TCGA)数据的四个癌症位点的生存分析任务的多模态效用,结合了多组学(表格)和组织病理学幻灯片(成像)数据。研究结果表明,与其他融合模型相比,HEALNet在所有四种癌症数据集上实现了最先进的一致性指数(c-Index),用于多模态患者生存预测。更具体地说,与最佳单模态基准相比,HEALNet平均提高了7%,与最佳早期、中期和晚期融合基准相比,平均提高了4.5%,作者认为这是对混合早期融合范式的有希望的验证。总之,作者的贡献包括:

•保留特定模态的结构:HEALNet优于单模态表格(组学)和成像(组织病理学)基线,而无需专用的特定模态网络拓扑结构。

•学习跨模态交互:HEALNet有效捕获跨模态信息,与现有的早期、中期和晚期融合基线相比,实现了显著更高的多模态提升。

•处理缺失模态:作者表明HEALNet在推理时有效地处理缺失模态,而不会向模型引入进一步的噪声,这是临床使用多模态模型的常见问题。

•模型设计:HEALNet是可以解释的,因为特定于模态的关注权重可以提供关于模型已经学习的内容的见解,而不需要单独的解释方法。作者相信它们对于模型调试和验证以及领域专家都很有用

3 方法

HEALNet (Hybrid Early-fusion Attention Learning Network,混合早期融合注意学习网络)概述,该网络使用共享的、模态特定的参数空间,从同一模型中结构不同的数据源进行学习(图1A)。共享空间是一种学习潜嵌入,通过d个基于注意力的融合层迭代更新,并捕获模态之间的共享信息。混合早期融合层(图1B和公式(3))学习了各层之间共享的查询()、键()和值()对应的每个模态m的交叉关注权 。这些层捕获每个模态的结构信息,并在通过自归一化网络(SNN)层后将其编码到共享嵌入中。

3.1 Preliminaries

设为模态m = 1,…,j∈N 的表示,使得为具有p个特征和n个样本的表格数据集,或图像数据集为具有高h,宽w和通道c的n幅图像。多模态融合方法的目标是学习一个融合函数f(),使得y = ,,。这种系统的传统设计是首先学习一个特定于模态的函数,它学习一个中间表示,然后应用融合函数f()来预测目标变量y = ,。

3.2 模型架构

作者在图1中描述了HEALNet。HEALNet使用迭代学习设置,而不是计算并应用单个融合函数f()。t表示一个步骤,其中对于融合层数d∈θ,步骤总数T= d × j。设表示一个跨模态共享的潜在数组,初始化为,其中用于嵌入维度a, b∈N,并且在每一步更新。首先,HEALNet没有学习中间表示作为的编码输入,而是在每个步骤t上计算每个模态m的注意权重为公式(1):

其次,HEALNet学习在每个步骤上应用的更新函数ψ()。模态m的S更新公式(2):

为了参数效率,最终实现使用层间权值共享。在跨模态时,每个早期融合层变成形式为公式(3):

生成预测结果的最终函数仅取共享数组的最终状态,并将目标变量()的预测作为全连接层返回。

图1描述了该方法的高级可视化表示,显示了:(a)混合早期融合注意学习网络及其关键组件(b)早期融合层(如式3所示)。HEALNet使用注意层是因为它们:a)对输入数据做出更少的假设(例如,与卷积网络相比),b)它们能够通过交叉注意机制为原始模态提供上下文。HEALNet首先初始化一个潜在嵌入变量,该变量迭代地用作对每个融合层的查询,并在每一层通过时使用来自不同模态的信息进行更新。HEALNet之所以选择迭代注意力范式,是因为它在一系列单模态任务上具有很强的竞争力。通过共享潜数组传递模态有助于显著降低维数,同时通过交叉注意层学习重要的结构信息。

3.3 保留结构信息

为了处理异构模态,HEALNet使用特定于模态的跨注意层α()及其相关的注意权重,同时在所有模态之间共享潜在数组S。模态之间共享潜在数组允许模型从模态之间的信息中学习,这些信息在模型中反复传递(图1A)。同时,跨注意层之间的模态特定权重(图1B)侧重于从不同维度的输入中学习,以及学习每个模态的隐含结构假设。具体来说,在这项工作中,所采用的注意机制是指中原始的缩放点积注意,并对表格和图像数据进行了调整。公式化描述如下,给定一个表格数据集作为矩阵,,, n∈N样本和p∈P特征(例如,基因表达),HEALNet的目标是学习权矩阵,它们作为S和的线性变换,形成查询,键和值对于传递到该层的每个样本。一般尺度的点积注意为每个特征生成注意分数,可以用笛卡尔符号表示为公式(4):

换句话说,对于每个通道p和样本n,注意层计算在给定该样本的所有其他特征的背景下的标准化和缩放的注意权重。这样做的好处是,注意力分数总是特定于给予注意力层的每个输入。由此,HEALNet可以提取归一化的注意矩阵A和上下文矩阵,这是原始输入x的注意加权版本。在例子中,HEALNet需要结合多个输入来应用迭代注意机制(即交叉注意)——这些输入是每个模态的潜在S和输入矩阵。为此,HEALNet分别使用潜在数组作为查询,并使用输入张量作为键和值。给定一个潜在数组S,作者定义每个样本的查询,对于所有样本n∈[1,N],键和值为

和。直观地说,迭代交叉关注可以看作是将查询单独地与每个模态对齐,而不是将模态本身对齐,以确保捕获其唯一的信号。在每个时间步骤中,对下一个更新的查询提供来自先前更新的其他模式的上下文。

3.4 高维生物医学数据

基于注意力的架构通常是在庞大的数据集上训练的(这些数据集通常用于视觉和语言任务)。然而,处理生物医学数据的挑战是它们的高维数,而通常只有相对较少的样本(即患者)。例如,一个数据集(如TCGA-BLCA)包含最高分辨率约为64亿像素(80k × 80k像素)的整张幻灯片图像,包括数千个多组学特征,但总共只有几百名患者。这导致了数字病理学中的两个常见问题——过拟合和高计算复杂度。首先,为了抵消过拟合,HEALNet实现了L1和L2正则化。考虑到注意力层需要相对大量的参数,作者发现L1正则化很重要。除此之外,由于其经过验证的鲁棒性和正则化特性,作者选择了自归一化神经网络(SNN)块。其次,在计算限制下处理整个幻灯片图像(wsi)的极高分辨率也是一个挑战。作者通过在下采样2倍和4倍的整张幻灯片图像上提取不重叠的256x256像素补丁来解决这个问题(每像素分别为~0.5和1.0µm)。为了与其他工作的可比性,作者使用在ather100k数据集上预训练的标准ResNet50为每个贴片提取2048维特征向量,该数据集由健康组织和结直肠癌组织的100k组织病理学图像组成。虽然HEALNet在原始补丁数据上也取得了有竞争力的结果,但这需要更大的降采样才能在计算上大规模可行。

3.5 处理缺失模态

临床实践中常见的挑战是在推理过程中缺少数据模态。也就是说,在实际情况中,虽然模型已经接受了多种模态的训练,但很有可能并非所有的数据模态都可用于预测患者的结果。因此,多模态方法必须对这种情况具有鲁棒性。典型的中间融合方法需要随机初始化或输入相同形状的张量,或者对潜在空间进行采样,以便将语义上相似的替换传递到融合函数,,;θ,这可能会引入噪声。相比之下,HEALNet通过设计克服了这个问题:迭代范式可以在无噪声的情况下在推理时简单地跳过一个模态更新步骤(公式3)。请注意,这些实际的好处也延伸到训练场景,其中(通常是少数)样本缺少一些模态。HEALNet可以使用相同的更新原则训练和利用所有可用的数据,而不是输入这些数据或完全省略样本。

4 实验

4.1 数据集

作者对来自癌症基因组图谱(TCGA)的四个癌症数据集的生存分析任务进行了实证评估。具体地说,作者使用结构异构的模态,例如在表格或图像数据集中形式化的模态。表格数据结构由三个来源组成:大量基因表达(RNAseq)、突变(全基因组测序)和拷贝数变化。HEALNet将它们视为三种独立的模态,而对于只支持两种模态的基线,必须将它们连接起来——在本文的延续中,作者将其称为组态模态。WSI模态包括h&e染色的全切片组织图像,与组学模态相同。也就是说,作者纳入的四个癌症数据集是肌肉浸润性膀胱癌(BLCA, n=436)、乳腺浸润性癌(BRCA, n=1021)、宫颈肾乳头状细胞癌(KIRP, n=284)和子宫肌体子宫内膜癌(UCEC, n=538)。这些特定位点的选择是基于它们的样本量(BRCA、BLCA和UCEC是一些最大的TCGA数据集)、之前单峰研究报告的性能指标(例如KIRP在组学上最高,UCEC在WSI上最高)和其他组学特性(例如,BLCA和UCEC以其非常高的基因突变率而知名)。

4.2 结果

表1总结了生存分析的结果,显示了c指数在五个交叉验证fold中的平均值和标准差。在所有测试的癌症部位,HEALNet优于所有多模态基线。这相当于在BLCA、BRCA、KIRP和UCEC任务的多模态基线上分别提高了约7%、1%、3%和6%。与多模态基线相比,HEALNet也表现出更稳定的行为。表1所示的单模态基线对应于训练的单模态基线中表现最好的模型。与两种单模态基线中较好的模型相比,HEALNet在BLCA和BRCA上的c-Index高出约10%,在KIRP上的c-Index高出4%,在UCEC上的表现几乎相当。作者将其称为多模态优势,如图2所示,在图2中,作者比较了不同多模态模型和融合策略对最佳单模态模型的改进。请注意,UCEC数据集是模态优势的一个例子,其中所有信息信号都来自一种模态(在本例中为WSI),而来自另一种模态的信号可能是非信息的或有噪声的。在这种情况下,直接结合模态的中期和晚期融合入路不太稳健。例如,在Porpoise和MCAT的情况下,这甚至会导致性能下降。由于HEALNet对此类噪声具有更强的鲁棒性,因此其性能可与单模态变体相媲美。

为了进一步评估HEALNet的鲁棒性,作者评估了它在缺少模态的情况下的性能。具体来说,使用在四种模态(WSI + 3×Omics)上训练的HEALNet,作者研究了在推理过程中模态缺失时的性能。请注意,一半的测试样本只包括WSI模态,而另一半是随机选择的组学模态。单模态基线对应于可用模态的预测,其方式与后期融合模型使用两个单模态模型,然后使用异或门控机制进行预测的方式相同。为了完整性,文章还报告了整个测试集由具有组学或WSI模态的样本组成的结果,而不是两者的组合。请注意,单模态基线是基于单一模态训练的HealNet模型。表2所示的分析结果表明,提出的HEALNet在两种模态上进行了预训练,比后期融合基线(在实践中通常采用)稳定且总体性能更好。

5 总结

该文介绍了HEALNet,一种灵活的混合早期融合方法,用于多模态学习。HEALNet有几个独特而有益的特性,适合于生物医学领域的应用:1)它通过模态特定的关注来保留每个模态的结构信号,2)由于其迭代架构,它可以学习跨模态的相互作用,3)它有效地处理缺失的模态,4)它可以轻松地进行模型检查。实验评估强调了在模型管道中早期融合数据以捕获跨模态信号的重要性,从而获得更好的整体模型性能。虽然在这项工作中,作者只关注使用数字病理学和基因组数据模态的生存分析,但该框架也可以扩展到其他领域(和模态),如放射学或精确肿瘤学,以及其他任务,如诊断或预测治疗反应。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值