刚开始读该论文,正在更新……
前言
这篇论文题目是:M3AE:缺失模态下脑肿瘤分割的多模态表征学习。
论文地址: PDF下载。
代码地址: GitHub。
摘要
这篇论文介绍了一种多模态磁共振成像(MRI)的新框架,用于在大脑肿瘤细分区域分析中补充信息。它特别指出了使用四种常见的MRI模态对脑肿瘤进行自动分割的方法,这些方法已经取得了显著的成效。然而,实践中常常会有一个或多个模态由于图像损坏、伪影、采集协议、对比剂过敏或仅仅是成本问题而缺失。
为了应对这一挑战,作者提出了一个包含两个阶段的框架来处理缺失模态的脑肿瘤分割。第一阶段,提出了一个多模态掩蔽自编码器(M³AE),其中既随机地遮挡模态(即模态掉落),也随机地遮挡剩余模态的随机区域,进行重构任务,以自监督方式学习对抗缺失模态的鲁棒多模态表征。为此,他们将这个框架命名为M³AE。同时,他们使用模型反演来优化代表性的全模态图像,这将在推理过程中被用来替代缺失的模态并提升性能。
在第二阶段,提出了一个内存高效的自蒸馏方法,在微调模型进行监督分割时,用于在不同模态缺失情况下提取知识。M³AE属于“通用”类型,即一个模型可以应用于所有可能的模态子集,因此在训练和部署方面都很经济。在BraTS 2018和2020数据集上进行的大量实验证明了它相对于存在模态缺失的现有最先进方法的优越性能,以及其组件的有效性。
引言
不均匀组织学亚区域的分割及其体积量化对于脑肿瘤的诊断、预后、治疗规划和随访非常有价值。多参数磁共振成像(MRI)是当前临床成像诊断脑肿瘤的标准方法。具体来说,有四种MRI模态通常用来提供互补信息并支持亚区域分析:T1加权(T1)、增强对比T1加权(T1c)、T2加权(T2)以及T2流体衰减反转恢复(FLAIR),其中前两种突出显示肿瘤核心,最后两种突出显示肿瘤周边的水肿。近年来,深度学习方法在带有多模态MRI的脑肿瘤分割方面极大地推动了技术的进步。然而,这些方法是为理想情况下所有模态都存在的场景优化的,而在实际中,由于图像损坏、伪影、采集协议、对比剂过敏或者仅仅是成本问题,经常会遇到一个或多个模态缺失的情况。
为了适应模态缺失的实际情况,人们做出了很多努力。一种简单的方法是为每一种可能的模态子集训练一个“专用”的模型。为了更好的性能,人们通常将共训练策略结合到从全模态到缺失模态的网络中以传递知识。尽管这些专用模型的性能不错,但是训练它们非常耗时,并且部署起来也需要大量的空间,因为需要为2N-1个模态组合训练模型。
( 为什么是2N-1:当我们讨论为2N-1个模态组合训练模型时,我们实际上是在讨论幂集,即一个集合所有可能子集的集合,除去了空集(因为至少需要一种模态)。对于任何集合,如果有N个元素,那么它的幂集将包含2N个子集。这是因为每个元素可以在或不在子集中,就像开关可以打开或关闭一样,因此每个元素都有两种可能性。对于N个元素,这些可能性的组合是
2N。)
另一种方法是合成全模态分割所需的缺失模态图像,通常会使用生成对抗网络(GAN)。然而,GAN不仅难以训练用于3D图像生成,而且在训练和部署过程中还会产生额外的开销。目前,主流方法是将可用的模态投影到一个共同的潜在空间,在那里学习共享特征表示,然后将其投影到分割空间。这种“一网打尽”的方法可以处理所有可能的模态子集,并且只需要一个模型,因此更加经济。然而,现有的一网打尽的方法通常采用了复杂的设计,包括多个编码器,有时甚至多个解码器,以及复杂的交互。
( 对于生成全模态分割所需的缺失模态图像,为什么通常会使用生成对抗网络(GAN):生成对抗网络(GAN)是一种深度学习模型,通常用于生成新的数据样本,尤其是图像。GAN由两部分组成:一个生成器(Generator)和一个判别器(Discriminator)。生成器的任务是生成看起来与真实数据尽可能相似的新数据,而判别器的任务是区分真实数据和生成器生成的假数据。这两个网络在训练过程中相互竞争,生成器努力生成更真实的数据,而判别器则努力更好地区分真假数据。通过这种对抗过程,生成器学会产生高质量的数据。
在医学图像分析,尤其是MRI分割中使用GAN,有几个原因:
1.数据增强:医学图像数据可能很难获取,尤其是具有特定疾病标记的图像。GAN可以生成额外的图像数据,帮助训练更健壮的分割模型。
2.模态合成:在某些情况下,可能缺少某些模态的MRI图像。例如,某种特定的成像技术可能过于昂贵或对患者有潜在风险。GAN可以用来合成缺失的模态,允许模型利用完整的多模态数据集进行训练和推理。
3.增强学习信号:在训练过程中,GAN生成的合成图像可以提供额外的学习信号,有助于改进模型的性能,尤其是当可用的真实数据量有限时。
4.去噪和修正伪影:GAN还可以被训练来清除图像中的噪音或修正伪影,这对于提高医学图像分割的准确性是有帮助的。
5.跨模态翻译:GAN能够学习将图像从一种模态转换为另一种模态的映射,这对于脑肿瘤分割来说是有用的,因为不同的模态可以提供关于肿瘤的不同信息。)
在这项工作中,我们提出了一个新颖的全面框架,用于MRI脑肿瘤分割,处理缺失模态的情况。这个框架巧妙地整合了多模态掩蔽自编码器、基于模型反演的模态补全以及在单一简洁的编码器-解码器架构中进行的高效自我蒸馏。最重要的是,考虑到近期自监督方法在学习丰富的视觉表达上取得的进展,我们提出了多模态掩蔽自编码器(M³AE),其中随机选择的模态子集和剩余模态的随机区块同时被掩蔽。直觉是,为了恢复被掩蔽的内容,模型必须有效地利用模态之间全局和局部的内在相关性,加上模态内的局部语义。因此,我们将这个框架命名为M³AE。与此同时,一个代表性的全模态图像是通过模型反演学习的(Wang等人,2021a),这在推断过程中用作缺失模态的替代品,有效提高了性能。在推断过程中,子监督M³AE损失的传播仅产生边际的额外计算成本。据我们所知,这是第一次尝试将模型反演应用到医学图像的模态补全中。最后,我们提出了一个简单而高效的自我蒸馏方法(Ge等人,2021),以促进不同模态组合之间的语义一致性。为此,我们减少了共训练双网络的内存占用,同时仍然能够在异质模态情况下有效地传递语义信息。在两个公共数据集上进行的广泛实验表明:(1)我们框架对缺失模态的鲁棒性以及相较于现有的全能型和专用型方法的优越性,(2)其构建组件的有效性,以及(3)其在全模态表示学习中的能力。
( 模型反演:模型反演(Model Inversion)通常指的是一种通过观察模型的输出来推断模型输入的过程。在深度学习和机器学习领域,这通常涉及到通过已知的模型(如神经网络)和其输出结果,反向工作以重构输入数据。这种方法可以用于各种目的,如特征可视化、隐私攻击(例如,推断出敏感数据)、或者在有缺失数据的情况下补全数据。
在医学图像处理的上下文中,模型反演可以用来重建丢失或未采集的图像模态。比如说,如果我们有一个针对多模态MRI数据训练的深度学习模型,该模型通常需要T1、T2、FLAIR等不同模态的输入来识别和分割脑肿瘤。如果某个病例中缺少了T1模态的图像,模型反演可以用来预测或重建这缺失的T1图像。
一个具体的例子是:设想我们有一个用于脑肿瘤分割的卷积神经网络(CNN),它被训练为接受四种不同MRI模态的组合作为输入,并输出肿瘤的分割图。如果我们只有T2、T1c和FLAIR模态的数据,没有T1模态,我们可以使用模型反演来“猜测”T1模态可能的外观。这是通过调整一个输入图像(可以从随机噪声开始),直到CNN在其余三种模态下产生正确的分割输出为止。最终,调整过程产生的图像是CNN认为与给定的三种模态相对应的T1模态图像。
这种技术特别有用,因为它允许医生使用不完整的数据集来进行全面的分析,而不需要重新进行可能昂贵或不便的MRI扫描。不过,这种方法也需要小心使用,因为通过模型反演重建的图像可能并不完全准确,需要专业的判断和可能的进一步验证。)
( 在医疗图像领域,模型反演通常是指利用已训练的机器学习模型来预测或重建丢失的图像信息。这在情况下尤其有用,比如当一个完整的多模态数据集由于某些原因不可用时(例如某些图像序列未能采集或者质量不足以用于临床分析)。
举一个详细的例子来说明模型反演:
想象一个情景,其中一位患者接受了一个完整的脑部MRI扫描,包括四种不同的图像模态:T1、T2、T1c和FLAIR。这些图像都被用来训练一个神经网络,旨在识别和分割脑肿瘤。这个网络学习如何识别每种模态的特定特征,以及这些特征如何相互关联以表示脑肿瘤。
假设后来有另一位患者只能进行T1c和FLAIR序列的MRI扫描,因为对某些MRI对比剂过敏,无法进行T1加权对比增强扫描,而且由于某种原因,T2图像的质量不足以进行分析。
在这种情况下,医生还希望得到T1和T2图像模态的信息来辅助诊断和治疗规划。这时,可以采用模型反演技术:
1.初始化:首先,需要一个初始的猜测或者估计,这可以是一个随机的噪声图像或者是基于已有数据的一个模糊图像。
2.反演过程:将这个初始图像作为缺失模态的估计输入到神经网络中,同时输入其他可用的模态图像。
3.输出评估:网络会产生一个肿瘤分割的预测。然后,这个预测与那些已知模态图像产生的肿瘤分割进行比较。
4.调整和迭代:通过一个优化过程,对输入的估计进行调整,以最小化预测的分割和实际已知的分割之间的差异。这个过程是迭代的,意味着它会反复执行,每次都微调估计的输入图像,以产生更好的输出。
5.收敛:这个过程一直持续到估计的图像在经过网络处理后能产生与其他模态相一致的肿瘤分割结果。
6.结果:最终得到的图像是网络认为与其他模态图像相匹配的最佳估计T1和T2图像。
这个估计的T1或T2图像可能不是完美的真实复制,但它会尽可能接近真实的模态,根据模型学习到的特征和模态之间的关系。这样的技术可以帮助医生在不完整的数据集上进行更全面的分析,而不需要重新进行可能昂贵或不便的MRI扫描。
不过,需要强调的是,由于这种方法是基于模型的预测,所以它所生成的图像质量和准确性高度依赖于模型的质量和训练数据的广泛性。因此,实际临床应用前,模型反演生成的图像需要由专业医生进行审查。)
( 自监督学习是一种机器学习方法,它位于无监督学习和监督学习之间。它允许模型在没有显式注释或标签的情况下学习数据的有用表示。这是通过将一部分输入数据用作其自身的监督来实现的。自监督学习的关键在于创建一个预测任务,模型需要预测数据的某些隐藏或未观察到的部分。
一个具体的例子是自监督视觉表示学习:
情景:
你有大量的未标记猫的图片,你希望学习这些图片的有用特征,以便在未来的任务中识别猫,比如区分不同种类的猫。
自监督任务:
你可以设计一个自监督任务,比如预测图片中缺失的部分。具体来说,可以从每张图片中随机移除一部分,然后让模型尝试预测并重建被移除的部分。
实施步骤:
数据处理:
从每张猫的图片中移除一块区域,比如移除猫的一只耳朵或尾巴。
剩下的图片部分作为输入,被移除的部分作为要预测的目标。
模型训练:
使用一个深度学习模型,如卷积神经网络(CNN),训练它来预测缺失的耳朵或尾巴。
模型在训练过程中,通过尝试重建每张图片的完整视图来学习猫的特征。
特征学习:
在尝试解决这个预测任务的过程中,模型必须学习到猫的关键视觉特征,比如它们的形状、纹理和颜色分布,因为这些信息对于准确预测缺失部分是必要的。
结果:
经过足够的训练,即使没有任何关于猫是什么的显式标签,模型也能学习到识别和表示猫的关键视觉特征。这时,你可以利用这些学习到的特征来执行其他任务,比如分类照片中的猫品种。
自监督学习的优势在于,它可以利用大量未标记的数据来学习有意义的特征,这在许多实际应用中都是可用的。这种方法减少了对标签数据的依赖,使得可以在那些难以获取标注的领域中也能进行有效的学习。在医学图像分析中,这一方法尤其有价值,因为专业的医学标注往往成本高昂且难以获得。通过自监督学习,模型可以利用丰富的未标记医学图像数据自主学习和提炼出有用的特征,进而用于疾病诊断、图像分割等复杂任务。)
相关工作
在这项工作中,我们大致将现有的方法分为两类:专用型和全能型。有几种方法提出为每种特定缺失情况训练一个专用模型,其中共训练策略被用来从全模态网络向缺失模态网络传递知识。Hu等人(2020)和Chen等人(2021)提出了从多模态教师网络向单模态学生网络传递知识,涉及图像级(即,总体语义)和像素级(即,网络输出)。对抗共训练网络(ACN;Wang等人,2021b)通过熵和知识对抗学习增强了全模态到缺失模态蒸馏,用于潜在表示的对齐。风格匹配U-Net(SMU-Net;Azad,Khosravi和Merhof 2022)将全模态和缺失模态数据的共同潜在空间分解为内容和风格表示,并使用内容和风格匹配机制从全模态网络向缺失模态网络蒸馏信息特征。这些方法尤其在多于一种模态缺失时取得了不错的性能,然而在训练和部署时需要显著的计算和内存开销(为2N-1个模态需要训练模型)。相比之下,我们的框架采用了全能型设计,即一个适用于所有缺失模态情况的单一模型,因此更经济。
( 共训练策略(Co-training)是一种半监督学习技术,由Blum和Mitchell在1998年提出。在共训练的框架中,假设数据可以从两个不同的视角(即特征子集)观察到,这两个视角被认为是足够独立的,并且每个视角本身就足够以训练一个好的分类器。
共训练的基本过程通常包括以下步骤:
1.初始化:用标记数据训练两个独立的分类器,每个分类器只能看到数据的一部分视角或特征子集。
2.迭代过程:在后续的迭代中,每个分类器分别预测未标记数据的标签。
3.信任和添加:当一个分类器对某个未标记的示例很有信心时(通常是基于某种预定义的阈值),它会将这个示例连同它预测的标签一起添加到另一个分类器的训练集中。
4.重训练:两个分类器使用更新后的训练集重新训练。
这个过程重复进行,每次迭代都有新的未标记数据被分类器预测并添加到对方的训练集中。这种策略允许两个分类器相互教学,利用未标记数据的信息,最终可以提高整体的分类性能。
在医学图像处理,尤其是脑肿瘤分割这样的任务中,共训练策略可以被用来利用不同模态之间的互补信息。例如,一个分类器可能使用T1加权MRI图像训练,而另一个使用T2加权图像。这两个分类器各自独立学习,然后通过共训练过程中的互相验证和增强,提高对缺失模态数据的预测准确性。)
==(==全模态网络(Full-modal Network)和缺失模态网络(Missing-modal Network)是指在处理多模态医学成像数据时,根据输入数据的完整性区分的两种不同类型的深度学习网络。
全模态网络:
它指的是一个深度学习模型,通常是一个卷积神经网络,它被设计来处理包括所有可用模态的数据。
“全模态”意味着该网络利用了所有不同的成像技术(如T1、T2、FLAIR等MRI序列)来做出决策或预测。
这种网络能够从每种模态中学习特征,并利用不同模态之间的互补信息来提高诊断的准确性。
缺失模态网络:
这是一个被训练来处理在某些模态数据不可用的情况下运作的网络。例如,如果某个患者的数据集中缺少T2模态,那么缺失模态网络将只使用T1、T1c和FLAIR图像来进行脑肿瘤的分割。
这种网络需要能够从部分数据中学习有效的特征,并对缺失的信息进行适当的推断。
例子:
想象一下,一个医疗团队正在使用一个基于多模态MRI数据的深度学习系统来分析和分割脑肿瘤。这个系统包含两个模型:一个全模态网络和一个缺失模态网络。
全模态网络: 这个模型接收完整的MRI数据集,包括T1、T2、T1c和FLAIR序列。它被训练来最大化这些模态结合起来提供的信息,进行更准确的肿瘤分割。
缺失模态网络: 这个模型被训练用于应对数据不全的情况。例如,如果T2图像因为技术问题而缺失,这个网络将尝试仅使用T1、T1c和FLAIR来进行有效的肿瘤分割。它可能依赖于其他模态之间的相关性或使用从完整数据集学习的模式来推测缺失T2模态的信息。
总的来说,全模态网络是在所有模态都可用时的理想情况下使用,而缺失模态网络适用于处理不完整数据集的实际情况。这两种网络在医疗成像分析中都很重要,因为它们提供了在数据可用性受限时仍能进行准确分析的能力。)
一些专用方法通过使用生成对抗网络(GANs; Goodfellow等人,2014)以高保真度合成缺失的模态来解决问题,这种方法经常被用于3D图像生成。然而,众所周知GANs训练起来比较困难,并且可能会为训练和部署带来额外开销。此外,正如Lee、Moon和Ye(2020)所建议的那样,钆对比剂是可有可无的,生成的对比图像无法被生成模型完全再现。与其为每个对象完美合成缺失的模态图像,我们选择优化一个通用的全模态替代图像,在边际成本上提高了缺失模态分割的性能,但这并不一定看起来完全真实。
另一类方法试图用一个通用的全能模型来处理所有可能缺失模态的情况,其中通常采用模态特定的编码器将模态嵌入到一个共享的潜在空间中,接着进行特征融合和进一步处理以产生分割结果(Havaei等人,2016)。在这个通用范式上,异模态变分编码器-解码器(HVEM;Dorent等人,2019)结合了多模态变分自编码器来重建模态,从共享的潜在变量中强制形成一个真正共享的潜在表征;Shen和Gao(2019)提出了对抗性训练来适应特征映射,将缺失模态的特征映射调整为全模态的特征映射;潜在相关性表征学习(Zhou等人,2021b)建模了模态间的相关性,以在潜在空间中估算缺失模态的表征;Zhou等人(2021a)明确生成了一个特征增强的图像,以提供缺失模态的必要特征表征;区域感知融合网络(RFNet;Ding,Yu和Yang 2021)依靠一个区域感知的融合模块,根据不同区域自适应地从可用的图像模态中进行特征融合。所有这些方法都采用了复杂的设计,有多个编码器(有时也有多个解码器),并涉及复杂的相互作用。我们的框架虽然也属于全能类别,但它的特点是能够使用一个简洁的单编码器-单解码器架构(本质上是一个3D U-Net),来学习丰富的多模态表征,并同时处理不同的缺失模态情况。
自监督多模态表征学习在医学图像分析中:虽然已经有很多工作提出了有效的单模态医学图像自监督表征学习方法(Taleb等人,2020;Zhang, Wang, 和 Zheng, 2017等),但研究人员刚刚开始探索基于“多模态”进行多模态医学图像的独特预处理任务。最近,Taleb等人(2021)引入了一个新颖的跨模态拼图难题(CMJP)任务,用以学习模态不可知的特征嵌入。尽管CMJP方法有效,但它是为2D网络提出的,并没有考虑缺失模态的实际情况,以及如何将其扩展到3D网络或缺失模态情况也不是直观的。在HVEM中提出的调节模态重建任务与模态丢失相结合,是一种有效的自监督任务,为缺失模态做准备。然而,它只关注全局的模态间相关性,但忽视了局部结构的完整性,这对于学习强大的分割表征至关重要。相比之下,我们的M³AE通过同时模拟全局模态间的相关性和局部模态解剖结构的完整性,学习丰富的多模态表征,输入时结合了随机丢失的模态和随机遮盖的区块。为此,M³AE在本质上对缺失的模态鲁棒,同时适用于细粒度语义学习。
( 如何理解在HVEM中提出的调节模态重建任务与模态丢失相结合,它只关注全局的模态间相关性,但忽视了局部结构的完整性,这对于学习强大的分割表征至关重要。相比之下,我们的M³AE通过同时模拟全局模态间的相关性和局部模态解剖结构的完整性,学习丰富的多模态表征,输入时结合了随机丢失的模态和随机遮盖的区块:
在HVEM(异模态变分编码器-解码器)中提出的模态重建任务结合了模态丢失的概念。这意味着,该模型的目的是通过学习如何重建一个模态(即将一个模态作为输出),同时其他模态被提供为输入,来捕获不同模态之间的关系。这样的方法有助于理解不同模态之间的全局相关性,即如何在整个图像级别上协同工作。然而,这种方法可能没有充分考虑模态内部的局部结构信息,即每个模态内部具体区域的细节和微观结构。
局部结构的完整性指的是在更小的、局部的层面上理解和保留图像的详细结构信息,这对于医学图像分割尤其重要。例如,在脑肿瘤分割任务中,肿瘤边缘的精确识别需要细致地理解局部组织的结构,这样的局部信息可能在全局模态间的相关性中不被充分表示。
相比之下,M³AE(多模态掩蔽自编码器)在输入时同时模拟全局模态间的相关性和局部模态解剖结构的完整性。这是通过在输入数据中同时包括随机丢失的模态和随机遮盖的区块来实现的。通过这种方式,M³AE模型不仅能学习不同模态如何在整体上相互作用,还能捕捉每个模态内部特定区域的重要细节。这使得M³AE在执行任务(如分割)时能够理解整体图像的内容并关注到具体区域的微观细节,从而产生更准确的分割结果。
总的来说,全局模态间的相关性帮助模型理解不同类型的图像数据如何大致对应,而局部模态的结构完整性确保了在进行具体任务时能够精细地处理图像的每个小部分。这两者的结合为M³AE提供了处理复杂医学图像分割任务的强大能力。)
知识蒸馏:知识蒸馏(KD; Hinton, Vinyals, 和 Dean 2015)最初是提出来将知识从一个或多个教师网络(通常是大型复杂模型或模型集合)压缩到一个学生网络(通常是轻量级模型)中。在多模态分割缺失模态的情况下,有几项工作(Hu等人2020;Wang等人2021b;Chen等人2021;Azad, Khosravi, 和 Merhof 2022)提出将全模态网络的‘暗知识’转移至缺失模态网络,通过共训练策略(Blum 和 Mitchell 1998)。虽然取得了不错的表现,共训练策略由于双网络架构而在训练过程中带来了不容忽视的内存成本。此外,每一对共训练网络仅聚焦于全模态之间的固定相关性和特定类型的缺失模态(例如,全模态到T1单独),未能利用所有不同缺失模态情况共享的通用语义。采用自蒸馏(Ge等人2021;Ji等人2021),我们的框架在一个单一网络内提炼了异质缺失模态情况(包括全模态的特殊情况)之间的共享语义,实现了对于缺失模态和全模态分割的更好表现,同时比之前的方法消耗更少的训练资源。
( 本论文中采用的自蒸馏和普通的蒸馏有什么区别,以及采用自蒸馏的原因,并举个具体的例子辅助我理解自蒸馏的流程:
在传统的知识蒸馏中,通常有两个不同的模型参与:一个大型的、通常更复杂和精确的模型(称为“教师”模型)和一个小型的、通常更快更高效的模型(称为“学生”模型)。蒸馏的过程是将“教师”模型的知识转移到“学生”模型中。通常,这是通过训练学生模型来模仿教师模型的输出(例如,软标签或特征表达)来完成的。
自蒸馏,顾名思义,是一种不涉及单独的教师模型和学生模型的蒸馏方法。相反,它涉及到一个单一模型在其自身训练过程中从不同容量或不同配置的迭代中学习。在自蒸馏中,同一个网络在不同训练阶段扮演“教师”和“学生”的角色。
采用自蒸馏的原因通常包括:
- 资源效率:不需要维护两个单独的模型。
- 简化训练过程:避免了在教师模型和学生模型之间调整的复杂性。
- 提高性能:即使在没有更大、更复杂模型的情况下,也能改进单一模型的性能。
例子:
假设我们正在训练一个网络来进行医学图像的分类任务。我们想通过自蒸馏来提高这个网络的性能。
- 初步训练:首先,我们训练网络直到它在训练集上表现良好。
- 自我蒸馏:然后,我们采用刚才训练好的网络作为自身的教师。我们用这个训练好的模型(教师)的输出(例如,对分类的预测概率)来训练同样架构的模型(学生),但可能是在一些修改过的训练环境下,例如使用不同的数据增强方法、不同的损失函数或不同的训练子集。
- 迭代优化:这个过程可以迭代进行,其中在每次迭代中,当前学生的输出被用作下一代学生训练的目标。在每次迭代中,模型都在尝试复现上一次迭代中的模型的输出,这样就能在每一步都进一步细化和改进它的预测。
- 最终模型:最终,我们得到一个性能提高的模型,它获益于自我蒸馏过程中的连续自我监督学习。
在本论文的背景下,自蒸馏可能被用于改善模型在处理包含多个模态(例如不同类型的医学成像数据)时的表现,特别是当其中一些模态数据不可用时。通过自蒸馏,模型学习如何充分利用可用的模态信息,同时推断缺失模态的信息,这样即使在实际应用中某些模态不可用时,模型也能保持较高的性能。)
方法
方法部分的概述如图2所示,包括预训练阶段和微调阶段。在预训练阶段,提出了一种新型的多模态掩蔽自编码器(M³AE),用于自监督学习鲁棒的表征以对抗缺失的模态。同时,通过模型逆向传播M³AE的训练损失(L_mse)来学习全模态下缺失模态的替代品。然后在第二阶段,提出了一种内存高效的自蒸馏策略,通过一致性损失(L_con)来蒸馏异质缺失模态情况间共享的语义,同时对网络进行微调,用于脑肿瘤分割,并使用监督损失L_seg。训练好的分割网络作为一个‘万能’模型,可以用于任何子集以及模态的完整集合。接下来,我们首先描述我们框架的新提出的构建组件,包括M³AE,模型逆向,以及自蒸馏的详细信息,随后是介绍结合这些的训练和推断过程。
公式: