【Diffusion综述】医学图像分析中的扩散模型(二)

  本篇接着上一篇【Diffusion综述】医学图像分析中的扩散模型(一),主要内容为扩散模型在图像转译,图像重建,图像配准,图像分类,图像分割,图像去噪,图像生成,异常检测等中的应用。

  原文传递:Diffusion Models for Medical Image Analysis: A Comprehensive Survey

  综述系列篇:
  【SAM综述】医学图像分割的分割一切模型:当前应用和未来方向
  【CLIP综述】CLIP在医学影像中的应用(一)
  【CLIP综述】CLIP在医学影像中的应用(二)
  【Diffusion综述】医学图像分析中的扩散模型(一)


4、各种应用中的扩散模型

  为扩散模型提供一种分类法,或多或少遵循与其他医学成像分析技术相同的路线。(突然觉得,综述就是一种分类聊法~)然而,我们在图5中为每个子类别的论文提供了详细的附加信息。
  
Figure 5:提出的基于扩散的医学成像研究分类法建立在九个子领域上
在这里插入图片描述

  在本节中,我们探讨了基于扩散模型的方法,这些方法用于解决医学成像分析中出现的问题,如图5所示:(I)图像到图像的转换,(II)图像重建,(III)图像配准,(IV)图像分类,(V)图像分割,(VI)图像去噪,(VII)图像生成,(VIII)异常检测,以及(IX)多学科应用,也称为其他应用。
  图5是每个类别的大量研究的集合,每个研究都有广泛的信息,如研究的方式、感兴趣的器官、研究扩散模型逆向过程中使用的具体算法。最后,在第4.10节中,本文讨论了研究中使用的总体算法,并试图阐明表1中论文的主要新颖性和贡献。


4.1 图像转译(Image-to-image translation)

  获取多模态图像用于诊断和治疗通常是至关重要的。此外,在某些情况下,我们可能会失去一些模态。扩散模型在利用跨模态(cross-modalities)生成缺失模态,或使用其他模态类型生成缺失模态方面显示出良好的结果,例如,从MRI转换为CT。

  CT和MRI是两种最流行的成像类型。然而,CT在显示软组织损伤的复杂性方面是有限的。因此,在接受初始CT结果后,可能需要进行后续的MRI来确定诊断。然而,除了耗时和昂贵之外,该过程还可能导致MRI和CT图像之间的不对齐。
  为此,Lyu和Wang(2022)利用DDPMs和基于分数的扩散模型来解决两种模式之间的转换问题,即从MRI到CT。特别是,他们提出了条件DDPM和条件SDE,其中他们的反向过程以T2w MRI图像为条件,并进行了全面的实验。作者采用了DDPM和SDE的三种不同的采样方法(在2.3.2节中提到的EM、PC和ODE),并将他们的结果与现有的基于GAN和CNN的方法进行了比较。他们在Gold Atlas男性骨盆数据集上进行的大量实验表明,扩散模型在结构相似指数测量(Structural Similarity Index Measure,SSIM)和峰值信噪比( Peak Signal-to-Noise Ratio,PSNR)方面优于CNN和基于GAN的方法。此外,他们还采用蒙特卡罗(MC)方法来研究扩散模型的不确定性;在这种技术中,模型输出10次,以平均值为最终结果,定性结果如图6所示。
  
Figure 6:将MR图像转换为CT图像的不同方法的视觉和定量比较
在这里插入图片描述

  为了解决模态缺失问题,Meng等(2022)提出了一种统一的多模态条件分数生成方法(UMM-CSGM),它以其他所有模态为条件生成缺失模态。该模型是SDE的条件形式,仅使用基于分数的网络来学习不同的跨模态条件分布。在BraTS19数据集上的实验表明,与SOTA方法相比,UMM-CSGM生成的脑组织缺失模态图像,具有更高保真度和结构信息。

  对于医学图像转译任务,扩散模型本身缺乏准确保持结构信息的能力,这是由于源域图像的结构细节在正向扩散过程中丢失,无法通过学习的反向扩散完全恢复,尽管保持医学图像中解剖结构的完整性至关重要。(加噪过程会丢失信息)为了缓解上述问题,Li等(2023)引入了一种利用频域滤波器保持结构的新方法,即频导扩散模型(Frequency-Guided Diffusion Model,FGDM)。提出的FGDM架构支持 zero-shot 学习,并且可以在目标域数据上进行专门训练。此外,他们的模型不需要在源域数据上进行训练,可以直接部署用于源域到目标域的转换。与基线SOTA方法相比,该方法在 zero-shot 医学图像平移方面具有显著的优势。


4.2 图像重建(Reconstruction)

  医学图像重建在医学成像中起着关键作用,其主要目标是为临床使用产生高质量的医学图像,同时最大限度地降低成本和患者风险。CT和MRI是医学上最流行的成像工具,然而,它们的物理特性限制了它们的功效,直接影响了它们的性能,降低了它们的预期结果。获得患者的高分辨率和完整的结果,需要更高的辐射剂量和相对较长的成像时间,这局限于健康预防措施和患者的配合度。
  因此,在CT、PET和MRI等医学成像技术中,更快的采集速度对于减少检查时间、改善成像服务和减少等待时间至关重要,更重要的是,需要在基于快速成像序列的动态图像研究中产生准确的图像。(既要速度也要质量)相应的,它们的辐射暴露比标准剂量减少,或者成像过程以欠采样或稀疏视图方式进行。
  为了减少这些缺点,如低信噪比(Signal-to-Noise Ratio,SNR)和低对比噪比(Contrast-to-Noise Ratio,CNR),医学图像重建必须克服上述挑战,本节概述了基于扩散的医学图像重建和增强示例。

  MRI是医学诊断和治疗中常用的非侵入性成像工具,但由于其固有的物理特性,它是一个耗时的成像过程,患者的运动会造成图像中的各种伪影。因此,为了减少成像时间并加速从空间域(或k空间)到图像的反演,基于监督学习概念,提出了各种解决方案。然而,这些方法对训练/测试集的分布变化或漂移不具有鲁棒性。
  Jalal等(2021)首次探索了基于生成模型的压缩感知(Compressed Sensing with Generative Models,CSGM)技术在MRI重建领域的研究。为此,CSGM在MRI图像上训练基于分数的生成模型,作为反演的先验信息,利用Langevin动态后验采样方案从欠采样MRI重建真实MRI数据。与端到端监督学习模式相比,CSGM在fastMRI和Stanford MRI数据集上,具有更好的SSIM(结构相似度)和PSNR(峰值信噪比)。

  Chung和Ye(2022)提出了一个基于分数的扩散框架,该框架解决了加速MRI扫描图像重建的逆问题,如图7所示。第一步,仅使用幅值图像训练一个具有去噪分数匹配的连续时间相关分数函数(continuous time-dependent score function)。然后,在反向SDE过程中,利用方差爆炸(VE)-SDE(Variance Exploding)从预先训练的分数模型分布中采样。在随后的每一步中,图像首先被分成实分量和虚分量,每个部分都被输入到预测器中,通过数据一致性映射来重建图像。
  对得到的图像进行再次分割,对每个部分分别应用校正器和数据一致性映射来补偿扩散过程中的误差,重建改进后的图像。结果表明,该模型优于以往的SOTA方法,甚至可以以高保真度重建训练分布之外的数据,例如重建训练中看不见的解剖结构。
  此外,当存在多个线圈时,所提出的框架对重建图像是非常有效的。对于上述问题,他们提出了两种方法:(1)对每个线圈图像进行并行重构;(2)考虑线圈图像之间的相关性,在反向SDE的每个给定步骤注入线圈图像之间的依赖关系。然后,对每个重构线圈图像进行平方和的平方根求和(sum-of-root-sum-of squares),得到最终图像。(平方和开根号,很多个平方和开根号再求和)虽然这两种技术在定性和实践上都取得了很好的效果,但它们都很耗时。
  
Figure 7:Score-MRI概览在这里插入图片描述

  Liu等(2022a)使用基于DDPM范式的模型(称为DOLCE)解决了有限角度CT重建问题。基于傅里叶切片定理,从正弦图(sinograms)映射CT图像的传统算法是滤波后投影(Filtered Back Projection,FBP)。因此,有限角度测量可能导致傅里叶测量的损失,从而降低重建结果。然而,由于重建框架的不适定性质(ill-posed nature),不能直接使用DDPM。
  DOLCE 将有限正弦图上的FBP输出作为先验信息来调节扩散模型。此外,由于正弦图所给出的一致性条件,在 l 2 {l_2} l2-范数损失下的去噪迭代步骤中增加了一个一致性项。在肾脏CT数据集上(C4KC-KiTS),SSIM和PSNR指标的结果表明,DOLCE能有效地产生清晰的CT图像。


4.3 图像配准(Registration)

  可变性图像配准是一种关键的医学图像分析技术,其重点是识别一对运动图像和固定图像之间的非刚性关系(物体或结构不是简单地进行了平移、旋转或缩放)。当图像形状因拍摄对象、扫描时间和成像方式等因素而发生变化时,可变性图像配准起着至关重要的作用。传统的配准算法在计算上可能很昂贵,尽管深度学习方法更快,但仍然难以处理现实中的连续变形。

  为了克服这些限制,Kim等(2022)引入了一种新的基于扩散的方法,称为DiffuseMorph。DiffuseMorph有两个主要的网络:扩散网络变形网络,它们都以端到端的方式进行训练。扩散网络对运动图像和固定图像之间的变形进行评分,而变形网络则利用这些信息来估计变形场。
  使用的信息包含空间信息,允许沿着从移动到固定图像的连续轨迹生成变形场。然后利用生成的变形场和空间变换层(spatial transformation layer,STL)将运动图像转换为变形图像。
  在推理阶段,该模型可以同时完成图像配准和图像生成任务。实验结果证实了该方法在二维面部表情和三维医学图像配准方面的高准确性。


4.4 图像分类(Classification)

  分类任务在医学图像分析中非常重要,因为它可以准确地识别和表征医学图像中的不同结构和异常。它具有帮助医疗专业人员解释大量复杂数据的能力,并有可能彻底改变医疗保健行业。(CV在医学影像中的龙头项目)尽管有这种潜力,采用扩散模型来增强分类结果仍然是一个需要进一步解决的重大挑战。(扩散模型还能这么用…

  DiffMIC 提出了一种利用扩散模型对不同医学图像模态进行分类的新方法,如图8所示。它首先将输入图像编码到特征嵌入空间中,并使用双粒度条件指导(Dual-granularity Conditional Guidance,DCG)模型捕获全局和局部先验信息。然后对ground truth和两个先验进行扩散,生成三个噪声变量,这些噪声变量与其相应的先验相连接,并投影到潜在空间中,从而获得三个特征嵌入。去噪U-Net将这些嵌入与图像特征嵌入相结合,并预测每个嵌入的噪声分布。随后,将得到的特征嵌入投影回其原始维度。
  
Figure 8:DiffMIC的两个阶段:训练(a)和推理(b)阶段
在这里插入图片描述
  为了估计添加到全局和局部先验以及ground truth中的噪声量,DiffMIC分别利用最大平均差异(maximum-mean discrepancy,MMD)正则化损失和均方误差(MSE)损失。在推理阶段,使用DCG模型从输入图像中获取双先验,并使用由双先验和图像特征嵌入条件约束的已训练U-Net对最终预测进行迭代去噪。
  总的来说,DiffMIC提出了一种很有前途的方法,可以使用扩散模型对医学图像进行准确分类,用于三个任务:使用超声图像对胎盘成熟度进行分级,使用皮肤镜图像对皮肤病变进行分级,以及使用眼底图像对糖尿病视网膜病变进行分级。


4.5 图像分割(Segmentation)

  图像分割是计算机视觉中的一项重要任务,它研究通过将图像分解为多个有意义的图像片段来简化图像的复杂性。(这个说法挺有意思)具体来说,它通过提供解剖学相关领域的有益信息来促进医学分析。然而,深度学习模型通常需要大量不同的像素级标注的训练数据,以产生可推广的结果。
  尽管如此,由于时间、成本和所需的专业知识,用于医学图像分割的图像和标签的数量受到限制。为此,扩散模型作为一种很有前途的方法出现在图像分割的研究中,它合成标记数据,消除了对像素级标注数据的需求。

  brainSPADE 提出了一种生成模型,用于合成标注的大脑MRI图像,可用于训练分割模型。brainSPADE由标签生成器图像生成器两个子模型组成。前者负责创建合成分割标签,后者负责根据生成的标签合成图像。
  在标签生成器中,输入分割图首先在训练过程中使用空间VAE编码器进行编码,并构建一个潜在空间。压缩后的潜在编码通过LDMs进行扩散和去噪,产生一个有效的隐空间,在该空间中忽略不可察觉的细节,更多地突出语义信息。空间VAE解码器通过隐空间构造人工分割图。
  在图像生成器中,Fernandez(2022)利用SPADE,一种VAE-GAN模型,从输入任意风格构建风格隐空间,并与人工分割图一起对输出图像进行解码。
  利用nnU-Net来评估brainSPADE的性能。结果表明,nnU-Net模型在合成数据上的训练结果与在真实数据上的训练结果相当,两者的结合显著提高了nnU-Net的效果。

  Kim等(2023)提出了一种新的扩散对抗表示学习(diffusion adversarial representation learning,DARL)模型,用于自监督血管分割,旨在诊断血管疾病。提出的DARL模型中有两个主要的模块:一个扩散模块,学习背景图像的分布,另一个生成模块,它使用可切换的SPADE算法生成血管分割mask或合成血管图像。图9说明了应用该方法的两种模式。
  
Figure 9:DARL概览
在这里插入图片描述
  在路径(A)中,将一个真实的有噪声的血管造影图像 x t a a {x_{{t_a}}^a} xtaa 输入到模型中,生成一个分割掩模 s ^ v {\hat s^v} s^v,SPADE开关关闭。在路径(B)中,将真实噪声背景图像 x t b b {x_{{t_b}}^b} xtbb 输入模型,SPADE开启并接收血管状的mask,生成合成血管造影图像 x ^ a {\hat x^a} x^a。然后,通过将生成的合成血管造影图像输入路径(A),形成一个循环,这有助于学习血管信息。此外,在推理过程中,执行路径(A),其中模型仅将带噪声的血管造影图像输入到模型中产生mask。结果表明,与SOTA的自监督和非自监督学习方法相比,该方法具有更好的泛化性、鲁棒性和优越性。

  除了前面提到的研究,Rahman等(2023)引入了 CIMD 框架,这是一种基于概率扩散的模型(single probabilistic diffusion-based model),用于解决模棱两可的医学图像分割任务。确定性医学图像分割框架,如Aghdam等(2022),Milletari等(2016)的研究产生像素不确定性,但结果并不一致。此外,从医学方面来看,医学图像分割不应该仅仅被看作是一个像素级的任务。在临床实践中,从医学图像中分析器官或其他结构并不是一个确定的像素过程,而是基于对整个图像的评估,或者在较小的范围内评估相邻像素的多样性。(用于诊断的分割边界可能并不明确
  扩散模型中的随机采样步骤可以产生多种不同的masks。在训练步骤中,CIMD利用与原始图像相联系的含噪分割ground-truth masks来阻碍传统扩散过程,从而产生更有弹性的结果。CIMD在三个数据集(一个私有数据集和两个公开数据集)上展开评价,其Collective Insight Score优于概率UNet模型。(不太理解

  Bieder等(2023)提出了一种内存高效(memory-efficient)的基于patch的扩散模型,称为PatchDDM,可应用于大型3D体量,适用于医疗任务。作者在BraTS2020数据集的肿瘤分割任务上评估了PatchDDM,并证明它可以生成有意义的三维分割,同时比传统的扩散模型需要更少的计算资源。


4.6 图像去噪(Denoising)

  医学成像的主要挑战是在不丢失重要信息的情况下获得图像。在采集和/或进一步处理阶段,所获得的图像可能被噪声或伪影破坏。噪声会降低图像质量,当成像对象很小且对比度相对较低时,噪声尤为显著。(死去的关于滤波器的记忆开始攻击我)由于生成模型的性质,扩散模型便于处理不同的去噪问题,本节中,将探讨扩散模型对这项任务的贡献。

  Hu等(2022)利用DDPM以无监督的方式,去除光学相干层析成像(OCT)视网膜体积数据中的杂点,该方法记为DenoOCT-DDPM。OCT成像工具受限于有限的空间频率带宽,这导致产生的图像包含散斑噪声。斑点噪声妨碍眼科医生的诊断,并可能严重影响组织的可见性。经典的方法,如在同一位置平均多次b-scans,有极大的缺点,如延长采集时间和重建伪影。由于散斑噪声的乘法特性,这些方法反而丰富了噪声。
  基于深度的模型表现出色。然而,这种性能取决于无噪声图像的可用性,这是难以获取的。为此,DenoOCT-DDPM利用了DDPM在噪声模式而非真实数据模式下的可行性。因此,他们使用自融合(self-fusion)作为预处理步骤,为DDPM提供清晰的参考图像并训练参数化的马尔可夫链(图10(a))。他们的研究展示了超越伪模态融合网络(Pseudo-Modality Fusion Network,PMFN)的SOTA结果,PMFN使用来自单帧噪声b-scan的信息和借助自融合方法创建的伪模态,以信噪比(SNR)作为度量。图10(b)所示的超越PMNF的定性结果(以多个采集信噪比表示),证实了扩散模型在去除散斑噪声的同时保留小血管等细粒度特征的能力。
  
Figure 10:(左)DenoOCT-DDPM的pipeline,(右)DenoOCT-DDPM的最终视觉比较
在这里插入图片描述

  PET是一种非侵入性成像工具,在癌症筛查和诊断中起着至关重要的作用。然而,与OCT设备一样,由于低束计数辐射(the low beam count radiation),PET的信噪比和分辨率较低。深度学习方法在PET图像去噪方面取得了进步,但过度平滑是基于CNN的方法的一个突出缺点。因此,条件生成对抗网络(CGAN)弥补了上述缺陷,但仍然依赖于训练集和测试集的分布。

  Gong等(2022)提出了基于DDPM的PET去噪框架,并嵌入辅助模态作为DDPM的先验信息,命名为PET-DDPM。Gong等针对PET和MRI模态分别使用了18F-FDG和18F-MK-6240数据集。
  PET-DDM是研究通过多模态协作学习PET图像的噪声分布。这种想法遵循原论文(Dhariwal and Nichol, 2021)中的生成范式,使用引导分类器将学习到的分布收敛到期望分布。如图11所示,PET-DDM与基于U-Net的去噪网络相比,其PSNR和SSIM产生了SOTA结果。
  
Figure 11:不同方法对20个18F-MK-6240测试数据集左半球表面误差映射的比较
在这里插入图片描述

  弥散MRI(Diffusion MRI)是研究肿瘤和神经生物标志物的重要模态,但其采集时间长且信噪比低。Xiang等(2023)探索了这些缺陷,他们将基于自监督统计的去噪策略添加到扩散模型中,并通过条件生成过程进行去噪。为此,他们的方法包括三个主要阶段。首先,它们以自我监督的方式学习初始噪声分布。接下来,他们根据上一步学习到的噪声分布,估计了一个具有 μ = 0 {\mu=0} μ=0 σ {\sigma} σ(高斯分布)的噪声模型,应用 p {p} p −范数来最小化 σ {\sigma} σ 和扩散采样噪声 β {\beta} β 之间的距离。最终,他们训练了另一个扩散模型,以无监督的方式产生干净的图像。他们在一个私人数据集和三个公共数据集上进行了实验,并报告了优越的去噪性能。


4.7 图像生成(Image generation)

  图像生成是扩散模型的主要目标之一,已经广泛应用于各种类型,包括生成合成二维/三维医学图像,从二维细胞图像重建三维细胞等。本节将概述基于扩散的医学图像生成方法。

  使用4D成像跟踪解剖变化是医学上用于跟踪 3D volumes 以检测异常和疾病进展的方法之一。这种4D图像主要通过MRI获得,但该过程相对耗时。Kim和Ye(2022)最近提出了扩散变形模型(Diffusion Deformable Model, DDM),该模型使用源域和目标域图像,并沿连续轨迹生成中间时间帧(插帧?)。该方法包括两个主要模块:(i)一个去噪扩散概率模型(DDPM)模块和(ii)一个变形模块
  在DDPM模块中,通过学习源域图像和目标域图像构建隐编码,在变形模块中,利用获取的隐编码和源域图像对变形后的图像进行渲染。在训练阶段,如图12(a)所示,通过Ho et al.(2020)提出的扩散模型,用源域图像、目标域图像和扰动后的目标图像,输出一个隐编码。从源域获得的隐编码被送到变形模块中,以创建变形场,该模块采用Balakrishnan等(2018)的方法。然后,利用空间变换层(STL)进行三线性插值,利用变形场对 source volume 进行变形,构建变形后的源域图像。
  
Figure 12:DDM训练阶段(a)和推理阶段(b)展示
在这里插入图片描述

  之后在推理阶段,采用扩散模块提供的隐编码,隐编码包含从源域到目标域的空间信息(见图12(b))。然后,使用变形模块通过对隐编码进行因子缩放生成变形的中间帧,因子取值范围为[0,1](见图13)。
  
Figure 13:DDM、VM 和VM-Diff 生成时间心脏图像的视觉比较
在这里插入图片描述

  Packhäuser等(2022)利用Rombach(2022)等提出的潜在扩散模型(latent diffusion model),生成高质量的条件类胸部x射线图像,同时提出了一种采样策略,以在生成过程中保持敏感生物特征信息的隐私性。为了评估生成数据集的潜在效用,在胸部异常分类任务上对图像进行了评估,结果表明所提出的方法优于基于GAN的方法。

  组织病理学包括在显微水平上对组织和细胞的研究,以诊断疾病和癌症。然而,某些癌症亚型的组织学图像是罕见的,生成模型填补这一空白具有重要意义。
  为此,Moghadam等(2023)首次研究采用DDPMs生成组织病理学图像。具体来说,他们利用基因型引导的DDPMs来合成包含各种形态和基因组信息的图像。为了解决数据一致性问题并强制模型更多地关注形态学模式,他们首先将输入图像送到颜色规范化模块( color normalization module)中,以统一所有图像的域。
  此外,他们应用了形态学水平优先级模块(morphology levels prioritization module),该模块为早期水平的损失指定更高的权重值,以强调感知信息,并为后期水平的损失指定更低的权重,从而获得更高保真度的样本。在癌症基因组图谱(TCGA)数据集上的实验表明,与基于GAN的方法相比,该方法具有优越性。

  在扩散模型合成MRI图像的研究中,通常是单模态方法(只利用一个模态,还是只合成一个模态),然而,由于它们依赖于原始图像域,这些模型通常会受到高内存需求的影响,并且对于多模态合成不太实用。
  为了缓解这一问题,Jiang等(2023)提出了第一个基于扩散方法的多模态MRI合成模型,即条件潜扩散模型(Conditioned Latent Diffusion Model,CoLa-Diff)。具体来说,他们提出了一种架构,旨在通过在隐空间中操作来减少内存消耗。为了解决隐空间中存在的压缩和噪声等潜在问题,他们采用了一种协同滤波法(cooperative filtering approach)。此外,为了保存解剖结构,他们考虑将脑区masks包含的区域,作为密度分布的先验以指导扩散过程。
  此外,还实现了一种自动权重适应技术,以有效地利用多模态信息。实验表明,所提出的方法优于其他SOTA MRI合成方法,表明CoLa-Diff作为促进多模态MRI合成的有效工具具有重要的前景。


4.8 异常检测(Anomaly detection)

  医学异常检测是计算机视觉中的一个重要课题,旨在突出图像中的异常区域。近年来,生成模型极大地影响了异常检测的形式,并显示出了良好的结果。因此,接下来,将探讨扩散模型作为异常检测中的主要生成模型。

  Wolleb等人(2022a)引入了一种基于去噪扩散隐式模型(Denoising Diffusion Implicit Models,DDIMs)的弱监督学习方法,用于医学异常检测。给定健康人或患者的输入图像,首先执行图像到图像的转换(image-to-image translation),其目的是将输入图像转换为健康图像。然后,通过从输入图像中减去输出图像来识别异常区域。
  这个过程首先通过反向DDIM采样将输入图像编码为噪声图像。然后,通过事先对健康图像和病变图像进行训练的二分类器来指导去噪过程,以产生健康图像。最后,通过取输出和输入之间的差值来计算异常图。在BraTS2020和CheXpert数据集上的结果表明,与VAE和GAN模型相比,所提出的方法具有优越性。

  Wyatt等(2022)在AnoDDPM中只在健康的医学样本上训练DDPM。然后通过计算输出和输入图像之间的差值来呈现异常图像。他们的研究还表明,单纯形噪声(Simplex noise)相比于高斯噪声,可以显著提高性能。

  相比之下,CDPM的研究表明仅在健康数据上训练扩散概率模型,会产生较差的分割性能。因此,CDPM作为一种反事实扩散概率模型(counterfactual diffusion probabilistic model),用于从真实输入图像生成非真实健康图像。
  如图14所示,通过使用无条件模型迭代应用扩散模型,将输入图像被初始编码到隐空间中。然后,通过逆向扩散过程来完成解码。使用隐式指导,利用健康状态和∅条件,隐层信息被解码。(图14的健康图像好像也不太健康…
  
Figure 14:CDPM概览
在这里插入图片描述

  受他人工作启发,Sanchez等随后通过将条件注意纳入U-Net网络来增强条件调节过程。最后一步,在推理过程中采用动态归一化技术,以避免引导迭代过程可能引起的图像统计量改变而导致的潜在空间像素饱和问题。最后,通过从生成的健康反事实图像中减去输入图像来确定异常的位置。

  Pinaya等(2022a)提出了一种基于DDPM的快速方法,用于检测和分割大脑MR图像中的异常区域(见图15)。该方法遵循生成健康样本并减去输入图像以获得异常区域的策略。
  
Figure 15:BAnoDDPM概览
在这里插入图片描述

  为此,继Rombach等(2022)之后,首次采用了VQ-VAE,它将输入图像编码为一个紧凑的潜在表示,并利用码本(codebook)提供对输入图像的量化潜在表示(quantized latent representation)。随后,DDPM利用获得的隐空间学习健康样本的潜在表示分布。通过对反向过程的中间样本的平均值应用预先计算的阈值,构建指示异常位置的二值掩码,这些中间样本包含较少的噪声和更明显的值。使用中间步骤作为反向过程的起点,他们对图像的异常区域进行降噪,并使用获得的掩码保留其余区域,从而从样本中去除病变。最终,在解码样本后,产生了一个健康的图像。

  在Behrendt等人(2023)最近的工作中,扩散模型的生成任务被重新定义为基于patches估计健康大脑的解剖结构,利用空间背景来指导和增强重建过程。具体来说,他们证明了同时对整个图像加噪声可能会对精确重建大脑复杂结构带来挑战。因此,他们引入了基于patch的去噪扩散概率模型(pDDPMs),用于脑MRI中的无监督异常检测(Unsupervised Anomaly Detection,UAD)。在所提出的pDDPMs中,在输入图像的局部patch上执行前向扩散过程,同时在逆向扩散过程中使用整体、部分去噪图像来恢复噪声patch。
  在推理过程中,训练好的pDDPM依次对输入图像的滑动patches进行操作,交替应用加噪声和去噪操作,然后将得到的去噪patches拼接在一起,从而产生最终的去噪输出图像。在公共BraTS21和MSLUB数据集上的实验验证了他们的方法在UAD性能方面优于或等同于大多数现有研究。


4.9 其他应用(Other applications and multiple tasks)

  从图5可以看出,仍然有一些研究不能被分配到一个特定的类别,并且扩散方法的使用并不局限于这九个类别。
  Gong等人(2023)提出了一种创新的半监督学习框架,该框架利用扩散模型来准确量化头部CT图像中观察到的脑中线移位。
  Keicher等(2023)提出了一种新的椎体骨折分级方法,使用扩散自动编码器(Diffusion Autoencoder,DAE)作为无监督的生成特征提取器。
  此外,扩散模型不仅限于医学领域的视觉相关任务,还可以促进生物学的研究创新。例如,Trippe等(2023)、Anand和Achim(2022)研究中提出的可用于设计药物和疫苗的平台。
  接下来,将探讨最近在多任务学习中使用的一些基于扩散的方法及其在医学领域的独特用途。

  在医学图像去噪中,非/自监督学习是一种理想的替代方法,因为很难获得成对的干净和有噪声的图像。传统的深度网络使用最小均方误差(Minimum Mean Square Error,MMSE)估计,由于训练/测试数据的分布变化或高斯噪声的初步假设与数据的实际分布不一致,导致图像模糊。
  Chung等(2022a)为MRI图像去噪和超分辨率提出了一种多连续范式,即 R2D2+,用SDE算法来解决上述缺陷。扩散生成模型对数据的任何分布变化都具有鲁棒性,可以生成更真实的数据。尽管扩散模型有优点,但它们非常耗时。为此,Chung等(2022a)并没有从纯噪声开始反向扩散过程,而是从初始噪声图像开始。R2D2+ 采用基于协方差矩阵特征值分析的非参数估计方法而不是传统的数值方法,解决了逆时间SDE计算。为了在整个过程中抑制结构的减弱,R2D2+使用低频正则化来阻止图像低频对应的任何变化。
  R2D2+在去噪步骤后使用相同的网络进行超分辨率任务。在fastMRI膝关节数据集和肝脏MRI数据集上的实验表明,该方法在信噪比(SNR)和对比度噪声比(Contrast-to-Noise Ratio,CNR)指标方面优于传统的SOTA非/自监督方法。

  准确的皮肤癌诊断模型对于早期发现和治疗至关重要。目前的计算机辅助系统使用深度学习,但最近的研究表明,这些模型极易受到攻击,这些攻击会微妙地改变图像,导致它们对皮肤损伤进行错误分类。
  为了解决这一问题,提出了一种新的防御方法,该方法可以通过使用多尺度图像金字塔和在每个尺度上注入高斯噪声以中和对抗性扰动的影响来逆转这些畸变。然后采用去噪机制去除附加噪声并从相邻尺度中聚合信息。通过重复这一过程,图像逐渐具有抗噪性,并获得实际的概率值。最后一步涉及融合不同尺度的子图像以产生恢复图像。在ISIC 2019数据集上的实验结果表明了该方法在抵御不同攻击方面的优越性。

  Hamamci等(2023)提出了一种使用分层多标签方法,用于检测全景x射线中的异常牙齿。他们采用了DiffusionDet模型,该模型利用去噪扩散过程从噪声框(noisy boxes)中预测目标及其类别。
  在方法的第一阶段,模型被训练来预测象限(口腔医学中,口腔通常被分为四个象限(左上、右上、左下、右下))及其相应的边界框坐标。研究人员将原始图像输入到编码器中以创建高级特征,然后在解码器的去噪步骤中使用这些特征来细化边界框。
  第二阶段包括预测齿数、象限数和边界框。然而,研究人员建议通过将前一阶段的推断框与噪声框连接起来来操纵边界框,而不是精炼完整的噪声框。编码器和解码器的权值从前一个阶段迁移到这个阶段。
  最后,第三阶段使用类似的方法通过象限-计数-诊断(quadrant-enumeration-diagnosis)标签检测异常牙齿。最终模型的输出如图16所示。(好像就是目标检测)这种分层方法可以处理部分标记的数据,并捕获底层数据的复杂信息。此外,研究人员提出了一个新的公共数据集,其中包含三种不同的数据类型:(1)象限检测,(2)象限和牙齿计数分类的牙齿检测,以及(3)象限,牙齿计数和诊断分类的患病牙齿检测。
  
Figure 16:HierarchicalDet模型的最终结果显示,不健康牙齿周围的边界框,以及预测象限(Q)、计数(N)和诊断(D)标签
在这里插入图片描述


4.10 比较概述(Comparative overview)

  表1将综述的扩散模型论文根据其直接使用或受启发于 (1) DDPMs,(2)NCSNs,(3) SDEs的算法进行了分类。此外,表1突出了每个算法的关键概念和目标,并代表了在未来基于回顾论文的研究中可以调查和使用的实际用例。

在这里插入图片描述
在这里插入图片描述

  显然,调节反向扩散过程以获得期望输出是研究最多的方法之一。这个引导过程可以使用不同的约束类型来完成。在Lyu和Wang(2022)、Xie和Li(2022)、Waibel等(2022)的研究中,他们通过使用图像施加条件来控制反向过程;特别是,Lyu和Wang(2022)利用T2w MR图像对DDPM和SDE进行条件约束以获得CT图像,Xie和Li(2022)提出了用于欠采样医学图像重建的测量条件DDPM,Waibel等人(2022)使用2D显微镜图像对3D模型进行约束以生成3D单细胞形状。
  此外,BrainGen还生成了真实的脑部扫描示例,这些示例取决于诸如年龄、性别、心室容积和相对于颅内容积的脑容量等元数据(meta-data)。Wolleb等(2022a)和Sanchees等(2022)则对分类器和隐式引导方法的使用进行了深度研究。通过这种方式,分布以一种更有可能达到预期结果的方式转移。

  扩散模型的一些主要问题和限制是它们的速度慢和所需的计算成本。已经开发了几种方法来解决这些缺点。无训练去噪扩散隐式模型(Training-free Denoising Diffusion Implicit Model,DDIM)是为了加速采样过程而设计的一种新方法。DDIM通过用非马尔可夫过程代替马尔可夫过程来扩展DDPM,从而获得更快的采样过程,且质量下降可以忽略不计。
  Cao等(2022b)和Chung等(2022c)针对反向过程,提出了一种合适的初始化方法代替随机高斯噪声,具有显著的加速效果。具体来说,Chung等(2022c)证明,基于随机收缩理论(stochastic contraction theory),通过对预先训练好的神经网络进行预测,可以加速反向扩散,减少反向采样的数量。Dar等(2022)也验证了对抗学习可以将反向扩散速度提高两个数量级。

  一些研究还探索了几种方法来提高扩散模型的输出质量。AnoDDPM证实,推广到其他类型的噪声分布可以提高特定任务的质量。他们确定了在异常检测的情况下,单纯形噪声比高斯噪声表现出优越性。此外,Cao等(2022b)证实,仅在图像的高频部分操作扩散过程可以提高MRI重建的稳定性和质量。

  尽管提到了扩散模型的改进,但仍然需要调查为什么扩散模型在医学成像中变得流行,以及为什么采用扩散模型的某些任务更成功。(是啊,为什么,分类任务为什么用扩散模型呀(・∀・(・∀・(・∀・*))扩散模型由于其有效性、易于实施和高质量的输出,已越来越多地应用于医学成像。在医学成像中,拥有高分辨率图像为疾病检测提供准确的局部信息是至关重要的。扩散模型已经能够实现这一点,促使它们在这个领域越来越受欢迎。

  如图17图5所示,与分割、文本到图像的转换、配准等任务相比,图像重建、去噪和生成等具体应用受到了更多的关注。这在很大程度上是由于扩散模型理论与重建和去噪任务目标的兼容性。(扩散还是该干扩散的事儿,插足分类、分割噶恒么)扩散模型的过程是在数据中加入噪声,然后去噪,直到原始数据被重构,这使得在扩散模型的框架内更容易实现这两项任务。
  
Figure 17:扩散模型时间轴
在这里插入图片描述

  此外,扩散模型能够捕获这些任务中涉及的潜在物理过程,并有效地模拟数据中信号和噪声之间的复杂相互作用,从而更准确地重建图像。此外,扩散模型是一类基于概率分布的生成模型,可以创建具有高度多样性和质量的合成数据,这就是为什么图像生成从一开始就是一个流行的应用。

  虽然扩散模型具有应用于不同任务的潜力,但它们可能需要进一步修改以适应其他特定任务。例如,文本到图像的转换需要一个具有强大文本编码能力的辅助网络。在目标检测的情况下,最近基于视觉的工作已经证明了将扩散模型应用于目标检测任务的潜力,通过逐步细化随机生成的框来产生最终输出结果。因此,虽然最初的工作倾向于关注图像生成、重建和去噪任务,但随着时间的推移,预计将会有更多的研究涉及更广泛的任务,因为图17揭示了该领域在学术中的未来前景。(我悟了


5、未来方向和挑战

  扩散模型已经成为医学视觉和医学生物学领域的热门话题,如图1所示呈上升趋势。扩散模型在医学成像中的主要优点之一是它们不需要标记数据,这使它们成为许多医学应用的有力候选者。此外,扩散模型由于其在基础模型(如大型文本到图像模型)中令人印象深刻的性能而受到欢迎。
  扩散模型对图像和其他数据分布建模仍然很有吸引力,原因之一是归纳偏差,它们能够有效地表示像图像这样的高维数据。这些模型是在一个重新加权的变分下界上进行训练的,该下界强调图像的全局一致性和主导模式,同时较少关注不那么明显的细节,使它们成为空间数据的一个极好的归纳偏差。
  然而,与其他生成模型相比,扩散模型在考虑其应用时应该考虑到一些局限性。这些限制包括与其他生成模型相比,生成过程较慢,对某些数据类型(例如,音频、文本或结构化数据)的适用性有限,与其他模型相比似然性较低,以及无法执行降维。
  这些限制并没有削弱扩散模型在生成高质量图像方面的独特优势,以及它们在没有一对标记或未标记数据的情况下工作的能力,为进一步研究和改进提出了开放的挑战。

  本文旨在对利用扩散模型的最新医学研究论文进行全面综述。根据图5中提出的分类法对研究进行了分类,以展示扩散模型的潜力。通过这篇综述,我们希望强调扩散模型的力量,并阐明它们在推进医学成像技术的能力方面的重要性。本节确定了未来研究的方向,强调了在这个令人兴奋和快速发展的领域继续研究的必要性。
  

探索更多样化的医学成像模态(Exploring more diverse medical imaging modalities)

  由于扩散模型的性质,它们是探索不同下游任务多种模态的有力候选者。根据图图1(b),大多数已发表的研究采用CT和MRI两种模态。然而,其他模态也可能受益于扩散模式的能力。例如,超声成像技术可能会受到成像系统的非理想点扩展函数(Point Spread Function,PSF)以及固有物理限制的影响。为此,一些研究探讨了各种生成 pipelines 对超声数据在图像质量增强和去噪方面的影响,从而提高图像质量。

表示空间(Representation space)

  VAEs和GANs的设计目的是保存和学习潜在空间中数据的有意义表示。然而,扩散模型已被证明在其潜在空间中创建语义上有意义的数据表示方面不太成功。因此,在扩散模型的潜在空间中缺乏语义表达的数据表示,这对执行涉及基于语义表示的数据操作任务构成了重大障碍。这可能是因为扩散模型在扩散过程中主要破坏潜在变量中的信息,导致有意义的表示空间较少。因此,有必要开发能够学习语义上有意义的表示的模型,因为它们能够更好地进行图像重建和语义修改。
  例如,Abstreiter等(2021)基于条件去噪分数匹配提出了一种新的扩散表征学习方法。具体来说,他们引入了一个额外的可训练编码器,并在编码器输出上设置分数估计器,这是干净数据的潜在表示。这将在潜在空间中产生可解释的特征,并允许在不需要架构修改或数据操作的情况下,更改编码特征的粒度。因此,缺乏适当的扩散模型表示空间为研究人员提出了一个开放的挑战。

结构设计(Architecture design)
  在扩散模型的背景下,网络结构是一个关键的设计选择,它直接影响它们学习复杂数据关系的能力,并在大型和多样化的数据集上产生高质量的结果。目前,大多数扩散模型使用基于CNN的结构和全局注意层(global attention layer),但最近的研究探索了transformer模型的使用。与CNN相比,transformer提供了几个优势,包括建模非局部相互作用和捕获数据中的远程依赖关系的能力。(transformer自身的优势)这些模型在自然语言处理任务中也显示出有希望的结果,表明它们在序列或时空数据建模方面的潜力。尽管有这种潜力,但在扩散模型中使用transformer仍处于早期阶段,需要进一步的研究来充分了解它们在这种情况下的能力和局限性。
  具体来说,大多数基于DDPM的方法遵循Ho等(2020)、Dhariwal和Nichol(2021)、Nichol和Dhariwal(2021)的基线,而基于分数的方法遵循Song等(2021b)、Song和Ermon(2020)的基线。因此,缺乏专注于改进医学成像扩散模型架构的研究,使其成为未来研究的一个公开挑战。

扩散模型的因果发现、推理和反事实生成(Causal discovery, inference, and counterfactual generation of diffusion models)
  扩散模型通常可以学习数据集的潜在概率分布,并用于生成遵循相同分布的新数据。这使得它们在复杂的因果推理、发现和反事实生成任务中更加有用。使用扩散模型进行因果推理的好处是它们能够处理丢失的数据,以及它们对分布变化的鲁棒性,使它们能够在数据可能不完整的现实环境中估计干预的因果效应。
  例如,Sanchez和Tsaftaris(2022)提出了一个使用扩散模型估计涉及高维变量的因果效应的新框架。此外,因果发现试图识别一个系统的潜在因果结构,而不需要给予特定的干预。
  Sanchez等(2023)提出了一种基于扩散模型的拓扑排序(topological ordering)因果发现的新方法。
  此外,扩散模型可用于生成反事实(counterfactuals),它探索假设情景,以评估进行或未进行干预的影响。这在医学和公共政策等领域特别有用,在这些领域进行随机对照试验可能很困难或不道德。总体而言,扩散模型为在各个领域生成数据和进行因果推理、发现和反事实分析提供了强大的工具。

隐私问题(Privacy concerns)
  医学界高度关注医疗数据的隐私问题。人工智能图像合成模型目前因可能违反版权法和损害其训练数据的隐私而受到审查。Carlini等(2023)进行了广泛的实验来评估与生成扩散模型相关的隐私问题。(这个测评方向很独特啊)结果表明,扩散模型倾向于从训练数据中记忆单个图像并在生成过程中再现它们。这将使对手能够进行攻击,以提取训练数据。此外,研究表明,与GANs等其他生成模型相比,扩散模型的私密性要低得多。因此,需要在隐私保护训练方面取得新的进展,以处理这些漏洞,特别是在医学等敏感领域。

联邦学习和扩散模型(Federated learning and diffusion models)
  由于医学成像中的隐私问题,限制了数据集成,扩散模型和联邦学习可以在医学领域创建一个有潜力又鲁棒的学习平台。从各种隐私保护智能医疗系统中收集数据,并存储在分散的位置。联邦学习允许在分散数据上训练机器学习模型,而不会与扩散模型一起暴露敏感信息,因此可以捕获跨多个参与设备的数据的底层分布。这种使用扩散模型作为“生成先验”的想法可以帮助减轻数据异构的影响,降低隐私泄露的风险,并提高学习模型的质量及其在泛化中的可信度。此外,生成模型(即扩散模型)被训练来学习数据的潜在概率分布,而不是记忆训练数据。
  抗扰动的稳定性是机器学习模型的理想特性,特别是在安全性非常重要(safety–critical)的应用中,例如医疗诊断,其中输入数据的微小变化可能会产生显著影响。扩散模型可以通过使用正则化技术来提供抗扰动的稳定性,例如在训练过程中向输入数据添加噪声,这可以帮助模型更好地推广到没见过的数据中。
  除此之外,联邦学习模型还可以在具有各种数据分布的广泛的数据源上执行。因此,联邦学习范式可以实现较强的分布外分布(out-of-distribution,OOD)泛化能力。此外,出于同样的隐私考虑,扩散模型可以整合其生成用于教育目的的合成医疗数据的步骤。

使用强化学习的逆向过程(Reverse process using reinforcement learning)
  扩散模型的反向问题求解,可以通过强化学习范式来估计最佳的反演路径,而不是可靠的数学解。在这个过程中,强化学习可以用来寻找扩散模型参数的最优值,使给定的奖励函数最大化。奖励函数可以被设计用来评估扩散模型与数据的拟合程度,并惩罚与观测数据的偏差,而传统的优化方法,如最大似然估计或贝叶斯推理,在计算上是昂贵或难以处理的。


6、总结

  本文综述了扩散模型的相关文献,重点介绍了扩散模型在医学成像领域的应用。具体来说,我们研究了扩散模型在异常检测、医学图像分割、去噪、分类、重建、配准、生成等任务中的应用。特别是,对于每个应用,我们都从不同的角度提供了核心技术的分类和高级抽象。此外,我们还基于一些技术对现有的模型进行了表征,其中我们确定了基于DDPMs,NCSNs和SDEs扩散建模的三种主要范式。最后,我们概述了未来研究的可能方向。

  虽然我们的调查强调了医学成像中基于扩散的技术快速增长,但我们也承认,该领域仍处于早期阶段,可能会发生变化。随着扩散模型越来越受欢迎,在这一领域的研究也越来越多,我们的调查为希望在工作中使用这些模型的研究人员和从业者提供了一个重要的起点和参考。我们希望这次调查将激发人们对医学领域扩散模型潜力的进一步兴趣和探索。值得注意的是,本调查中引用的一些论文是预印本。然而,我们尽一切努力纳入来自信誉良好来源的高质量研究,我们认为,包括预印本在内,它们提供了对这一快速发展领域当前最先进技术的全面概述。总的来说,我们相信我们的调查为扩散模型在医学成像中的应用提供了有价值的见解,并突出了未来研究中有前途的领域。


  完结撒花~

  • 19
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值