影像组学和人工智能(AI)技术为临床诊断、疾病预测和预后提供了强大的工具。如何有效地整合异质的多模态数据,包括临床图像、组学特征(如图像特征、基因组学、蛋白质组学等)以及临床表格中的结构化数据,依然是一个极具挑战性的问题。当前,许多研究在特征融合上多采用简单的拼接或决策级别的融合方法,这些方法虽然直观,但在捕捉不同模态数据之间的复杂交互和互补信息方面存在局限。如何将临床表格数据、组学特征以及临床图像有机地融合在一起,使模型能够自动学习各模态数据的权重,充分发挥多模态数据的优势是一个可以探讨的问题。本文将介绍一篇综述,该综述系统地探讨了不同融合策略。后续,MMIS也将在该方向提供更多的技术咨询方案和服务。
简介
单个患者的常规临床就诊可能会产生多种模态的数字数据,包括图像数据(即病理图像、放射图像等)和非图像数据(即实验室测试结果和临床数据)。异构数据将提供同一患者的不同视图,以更好地支持各种临床决策(例如疾病诊断和预后 )。然而,这种决策过程可能是主观的、定性的,并且表现出很大的个体间差异 。随着人工智能技术的快速发展,越来越多基于深度学习的解决方案被开发用于医学应用中的多模态学习。深度学习包括对高维数据中复杂现象的高级抽象,这往往有利于多模态融合提取和建模不同模态和结果之间的复杂关系。许多研究在使用单一模态数据通过深度学习方法进行诊断或预后方面取得了巨大成功。然而,在方法设计中,有效地融合多模态数据并非易事,因为不同的临床模态可能包含不同的信息(受试者的互补信息)并具有不同的数据格式。比如来自同一患者的多模态数据(图像和非图像数据)用于疾病的诊断或预后。图像数据可分为放射图像数据、病理图像数据。此类成像数据可进一步分为像素对齐数据(可以在空间上配准和叠加)和像素不对齐数据(不同图像中的像素没有空间对应关系),甚至可能具有不同的维度(例如 2D、3D 和 4D)。非图像数据可分为实验室测试结果(例如结构化的基因组序列和血液测试结果)和临床数据(包括人口统计特征的表格数据或实验室测试报告中的自由文本)。此类图像和非图像数据的异质性给执行多模态学习(机器学习中的一类算法)带来了严峻挑战。例如,2D 病理图像提供肿瘤的微观形态,而 3D 放射图像(例如计算机断层扫描 (CT)/磁共振成像 (MRI))提供同一肿瘤的宏观和空间信息。临床数据和实验室测试结果表明分子、生物和化学特性,而结构化的 DNA 和 mRNA 序列也参与临床决策。此外,图像数据通常更大、更密集(例如数百万像素),而非图像数据更稀疏、维度更低。在此,异构格式(例如不同维度、图像、自由文本和表格数据)需要不同的预处理和特征提取方法,不同类型的信息需要能够有效捕获共享和互补信息的融合方法,以提供更好的诊断和预后。
图像数据(例如放射图像和病理图像)和非图像数据(例如基因组数据和临床数据)的多模态数据通过多模态学习方法融合,用于疾病的诊断和预后(本图来源于该文章 DOI 10.1088/2516-1091/acc2fe)
多模态融合工作流程
通常,工作流程包含数据预处理、单模态特征提取、多模态融合和预测器部分。由于图像和非图像模态的异质性,直接融合原始数据并不常见。不同模态通常具有不同的数据预处理和特征提取方法。对于多模态学习,融合是至关重要的一步,其前提是单模态数据预处理和特征提取步骤。根据多模态融合的阶段,融合策略可分为特征级融合和决策级融合。特征级融合包含早期融合和中期融合。决策级融合(也称为后期融合)通过多数表决、加权求和或平均等方法将单模态模型的预测结果(例如,分类任务中单模态路径的概率logit或分类结果)融合在一起进行多模态预测。融合操作相对简单,在融合阶段无需重新训练单模态模型。对于特征级融合,可以使用提取的高维特征或原始结构化数据作为输入。与决策级融合相比,特征级融合的优势在于结合了不同模态的低级和高级特征之间的互补和关联关系,这导致了更多融合技术的变体。本综述主要对特征级融合方法进行分类,同时也与决策级融合进行了比较。
多模态融合方法
根据多模态融合的输入类型,融合策略可分为特征级融合和决策级融合。决策级融合使用简单操作(如平均、加权投票、多数投票或具有可训练层的单模态概率元分类器)整合单模态模型的概率或分类预测,以做出最终的多模态预测。对于决策级融合,单模态预测可以单独学习,并且与融合阶段无关。它可以融合任何多模态组合,而无需在测试阶段进一步调整。因此,它可能更适合灵活性和简单性,并且可以容忍缺失模态的情况。有时,决策级融合比特征级融合取得更好的性能。然而,决策级融合可能缺乏特征之间的相互作用。对于具有依赖或相关特征的模态,特征级融合可能更可取。另一方面,特征级融合将异构多模态的原始数据或提取的特征融合成一个紧凑且信息丰富的多模态隐藏表示,以做出最终预测。与决策级融合相比,已经提出了更多特征级融合方法的变体来捕捉来自不同模态的特征之间的复杂关系。
(1)基于操作的融合方法
要组合不同的特征向量,通常的做法是执行简单的级联、逐元素求和和逐元素乘法运算。这些做法无需参数且使用灵活,但逐元素求和和乘法方法始终需要将不同模态的特征向量转换为相同的形状。虽然基于操作的融合方法简单有效,但它们可能无法利用异构模态之间的复杂相关性。此外,当训练数据量不足时,级联生成的长特征向量可能导致过度拟合。
(2)基于子空间的融合方法
子空间方法旨在学习一个信息丰富的多模态公共子空间。一种流行的策略是增强不同模态特征的相关性或相似性。Yao等人提出了一个 DeepCorrSurv 模型并评估了生存预测任务。受到传统典型相关分析 (CCA) 方法 的启发,他们为监督 FCN 网络提出了一个额外的基于 CCA 的损失,以学习来自两个模态的特征的更相关的特征空间。通过学习非线性特征和监督相关空间,所提出的方法优于传统的 CCA 方法。Zhou等人设计了两种相似性损失来强制学习模态共享信息。具体而言,使用余弦相似性损失来监督从这两个模态中学习到的特征,并设计异中心距离损失来惩罚属于每个类的临床特征中心和 CT 特征之间的距离。在他们的实验中,如果没有这些相似性损失,准确率从 96.36 下降到 93.18。Li等人使用 L1 范数和 L2 范数损失的平均值来提高从病理图像和基因中学习到的单峰特征的相似性,然后将它们连接起来作为多峰表示。然后,可以通过连接将学习到的相似特征融合为多峰表示。另一项研究在 20 种癌症类型的诊断任务中将来自 4 种模态的特征向量与子空间思想融合。受到 SimSiam 网络的启发,他们通过基于边缘的铰链损失强制来自同一受试者的特征向量相似。简而言之,来自同一患者的单峰特征之间的余弦相似度得分最大化,而来自不同患者的单峰特征之间的余弦相似度得分最小化。不同患者的特征相似度仅在特征相似度的范围内受到惩罚。这种规律性强制了同一患者具有相似的特征表现,同时避免了模式崩溃。基于子空间的融合方法的另一种策略是使用编码器-解码器结构学习完整的表示子空间。Ghosal等人解码多模态特征的均值向量,并使用重建损失强制均值向量包含不同视图的完整信息。与没有此类损失函数的均值向量相比,带有额外解码器和重建损失的均值向量获得了更高的分类准确率。类似地,Cui等人也使用自编码器主干来学习完整的表示,但随机丢弃一些模态,并使用从可用模态生成的均值向量重建,以提高预测准确率,并对缺失模态的测试数据更具鲁棒性。
(3)基于注意力机制的融合方法
基于注意力机制的方法在进行聚合时计算并合并多模态特征的重要性得分(注意力得分)。这一进展模拟了常规临床实践。例如,患者临床报告中的信息可能会告知临床医生要更加关注 MRI 图像中的某个区域。Duanmu等人为非图像数据构建了 FCN 路径,为图像数据构建了 CNN 路径。从 FCN 路径中学习到的特征向量被用作 CNN 路径相应层的通道注意力。不同模态的低级和高级特征可以进行相应的融合,这比简单的连接获得了更好的预测精度。Schulz等人通过注意力层连接了从三种模态中学习到的特征向量,该注意力层加权了模态对下游任务的重要性。Chen等人计算共同注意力权重来生成基因组引导的 WSI 嵌入。类似地,Lu等人提出了一种对称交叉注意力机制,融合胶质瘤肿瘤的基因组数据和病理图像嵌入以进行多任务学习,而 Cai等人提出了一种非对称多头交叉注意力机制,融合相机图像和元数据以进行皮肤分类。Li等人聚合多尺度病理图像和临床特征来预测乳腺癌的淋巴结转移 (LNM)。在他们提出的方法中,将临床特征和通过均值池化得到的患者级图像表示连接起来,形成全局多模态表示,用于指导基于注意力机制的图像块 MIL 并重新校准临床特征。实验表明,所提出的基于注意力机制的方法优于 Chen等人使用的基于门控的注意力机制和袋概念层连接。 Guan等人在其级联多模态特征图中应用了自注意力机制。他们将临床特征向量平铺并变换为与图像特征矩阵相同的形状,以保留图像特征图中的空间信息。其性能优于级联方法和另一种使用相似性损失的子空间方法 。除了 MLP 和 CNN 之外,注意力机制也被应用于医学领域多模态学习的图模型中。Cui等人构建了一个图,其中每个节点由具有类别注意力机制的图像特征和临床特征组成。相邻节点的影响权重由卷积图注意力网络 (con-GAT) 和新颖的基于相关性的图注意力网络 (cor-GAT) 学习。注意力值用于更新节点特征以进行最终预测。最近,Transformer 模型被广泛应用于多模态学习,并且它们被应用于医学领域。Jacenkow等人利用单模态预训练的基于 Transformer 的语言模型 BERT,并在添加图像标记以进行多模态学习后对其进行微调。Li等人 使用放射学图像和放射学自由文本报告来微调由非特定于医学领域的通用图像语言对预训练的视觉文本 Transformer 模型。同时,在他们的工作中比较了不同的视觉文本主干、单模态预训练模型和训练策略。上述基于注意力机制的融合方法通过来自其他模态的互补信息对特征进行重新缩放,而 Pölsterl等人提出了一个动态仿射变换模块来平移特征图。该模块根据图像和临床数据动态生成比例因子和偏移量。在这种设计中,仿射变换被添加到最后一个残差块中卷积层之前,以重新缩放和平移图像特征图。因此,高级图像特征可以与压缩的临床特征进行交互,其性能优于简单的级联和基于通道注意力机制的方法 。
(4)基于张量的融合方法
基于张量的融合方法对多模态特征向量进行外积,形成高阶共生矩阵。高阶交互作用往往能提供比单个特征更具预测性的信息。例如,当一个人从事高压工作时,血压升高是常见现象,但如果同时存在心肌梗死和高脂血症的症状,则很危险。陈等提出病理融合,利用病理图像、细胞图和基因组数据进行预后和诊断。他们使用带有克罗内克积的张量融合网络来组合单模态、双模态和三模态特征。为了进一步控制每种模态的表现力,添加了门控注意层。王等不仅将外积用于模态间特征交互,还用于模态内特征交互。它的表现超越了基于 CCA 的 DeepCorrSurv 方法。最近,Braman等人效仿了病理融合 的工作,并将其从三模态扩展到四模态。此外,他们还添加了一个正交损失,以强制不同模态的学习特征彼此正交,这有助于提高特征多样性并减少特征冗余。他们表明,他们的方法优于简单的级联和原始的克罗内克积。
(5) 基于图的融合方法
图是一种非网格结构,用于捕捉以节点表示的各个元素之间的交互。对于疾病诊断和预后,节点可以代表患者,而图的边包含这些患者之间的关联。与基于 CNN 的表示不同,构建的群体图通过聚合具有相似特征的邻近患者的特征来更新每个患者的特征。为了利用非图像特征中的互补信息,Parisot等提出构建包含图像和非图像特征的图来预测 ASD 和 AD。图的节点由从 fMRI 图像中提取的图像特征组成,而图的边由不同患者之间图像 (fMRI) 和非图像特征(年龄、性别、部位和基因数据)的成对相似性确定。具体而言,邻接矩阵由受试者 fMRI 特征之间的相关距离乘以非图像特征的相似性度量来定义。他们的实验表明,所提出的图卷积网络 (GCN) 模型优于多模态串联的 MLP。继此研究之后,曹等人 进行了类似的图构建,但提出使用边 dropout 和带残差连接的 DeepGCN 结构代替原始的 GCN 来实现更深的网络,从而避免过拟合,取得了更好的效果。
结语
上述回顾了近期使用基于深度学习的方法融合图像和非图像模态以进行疾病预测和诊断的研究。特征级融合方法分为基于操作、基于子空间、基于注意力机制、基于张量和基于图的方法。基于操作的方法直观有效,但在学习不同模态特征的复杂交互时,其性能可能会较差。然而,这类方法(例如,级联)仍用于对新的融合方法进行基准测试。基于张量的方法代表了一种更明确的多模态特征融合方式,但过拟合的风险也更大。基于注意力机制的方法不仅融合多模态特征,还计算模态间和模态内特征的重要性。基于子空间的方法倾向于为不同模态学习一个共同的空间。当前基于图的方法采用图表示,通过在构建图结构时结合先验知识来聚合特征。需要注意的是,这些融合方法并不相互排斥,因为一些研究结合了多种融合方法来优化预测结果。与决策级融合相比,特征级融合可以从多模态特征之间的相互作用中获益,而决策级融合对于多模态的组合更加灵活,因此对模态缺失问题具有鲁棒性。
虽然不同的融合方法各有特点,但如何选择最优融合策略在实践中仍然是一个悬而未决的问题。没有证据表明某种融合方法总是表现最佳。目前,很难直接比较不同融合方法的性能,因为不同的研究通常是在不同的数据集上以不同的设置进行的。此外,大多数先前的研究没有使用多个数据集或外部测试集进行评估。因此,应该鼓励在医学领域进行多模态学习的更公平、更具可比性的研究和基准数据集。此外,最佳融合方法可能取决于任务/数据。例如,决策级融合可能更适合相关性较低的多模态。
详细内容见文献:Cui C, Yang H, Wang Y, et al. Deep multimodal fusion of image and non-image data in disease diagnosis and prognosis: a review[J]. Progress in Biomedical Engineering, 2023, 5(2): 022001.
MMIS服务内容
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。