【Diffusion综述】医学图像分析中的扩散模型(一)

  这两天了解了一下扩散模型,想知道在医学影像中,扩散模型有哪些用途,翻译记录一篇扩散模型的综述。

  原文传递:Diffusion Models for Medical Image Analysis: A Comprehensive Survey

  其他综述篇:
  【SAM综述】医学图像分割的分割一切模型:当前应用和未来方向
  【CLIP综述】CLIP在医学影像中的应用(一)
  【CLIP综述】CLIP在医学影像中的应用(二)


摘要

  去噪扩散模型(Denoising diffusion models)是一类生成模型,最近在各种深度学习问题中引起了极大的兴趣。(尤其是AI绘画领域)扩散概率模型定义了一个正向扩散阶段,在这个阶段中,输入数据通过加入高斯噪声在几个步骤中逐渐受到扰动,然后学习反向扩散过程以从有噪声的数据样本中恢复所需的无噪声数据。(先加噪再去噪,模型学习噪声分布)扩散模型因其强大的模式覆盖和生成样本的质量而被广泛赞赏,尽管其已知的计算负担。(好用且好多领域都能用,就计算量大
  利用计算机视觉的进步,医学成像领域对扩散模型的兴趣日益增长。(啥好东西,我医学影像也要用上)为了帮助研究人员学习这一丰富的内容,本综述旨在提供医学成像中扩散模型的全面概述。
  本文首先介绍了扩散模型背后的坚实的理论基础和基本概念,以及三个通用的扩散建模框架,即扩散概率模型( diffusion probabilistic models)噪声条件评分网络(noise-conditioned score networks)随机微分方程(stochastic differential equations)。然后,提供了医学领域扩散模型的系统分类,并基于其应用、成像方式、感兴趣器官和算法提出了多视角分类。
  本文涵盖了扩散模型在医学领域的广泛应用,包括图像到图像的转换、重建、配准、分类、分割、去噪、2/3D生成、异常检测和其他与医学相关的挑战。(主打一个方方面面,雨露均沾)此外,本文强调了一些方法的实际用例,然后讨论了扩散模型在医学领域的局限性,并提出了满足该领域需求的几个方向。
  持续论文更新列表:https://github.com/amirhossein-kz/Awesome-Diffusion-Models-in-Medical-Imaging


1、前言

  使用神经网络的生成建模一直是过去十年深度学习的主导力量。自其出现以来,生成模型在图像、音频、文本和点云等各个领域产生了巨大的影响。从概率建模的角度来看,生成模型的关键定义特征是,它以一种方式训练,使其产生的样本分布 x ~ ∼ p θ ( x ~ ) \tilde x \sim {p_\theta }\left( {\tilde x} \right) x~pθ(x~) 与训练数据分布 x ∼ p d ( x ) { x \sim {p_d}\left( x \right)} xpd(x) 来自相同的分布。
  基于能量的模型(EBMs)通过定义状态空间上的非归一化概率密度来实现这一点;然而,这些方法在训练和推理过程中都需要进行马尔可夫链蒙特卡罗(MCMC)采样,这是一个缓慢的迭代过程。
  在过去的几年里,由于通用深度学习架构的发展,人们对生成模型的兴趣重新燃起,揭示了视觉保真度和采样速度的提高。具体来说,已经出现了生成对抗网络(GANs)变分自动编码器(VAEs)归一化流(normalizing flows)。(归一化流,第一次听说哎
  除此之外,基于扩散过程的生成模型为现有的VAEs、EBMs、GANs和归一化流提供了一种替代方案,其不需要对后验分布进行对齐、估计难以处理的划分函数(Partition functions)、引入额外的判别器网络或配置网络约束。迄今为止,扩散模型已被发现在许多领域都很有用,从生成任务(如图像生成、图像超分辨率、图像绘制)到判别任务(如图像分割、分类和异常检测)。(是我狭隘了,以为只能生成…
  最近,医学影像领域见证了基于扩散技术的研究数量呈指数级增长(见图1)。如图1所示,大量的研究致力于扩散模型在不同医学成像场景中的应用。由于扩散模型最近受到了研究界的极大关注,因此该方向的文献正在大量涌入。(抓住热点)因此,对现有文献进行调查是有益的,也是及时的。
  为此,本综述旨在提供最近取得的进展的全面概述,并提供这类模型在医学成像中的整体概述。对相关文献的搜索表明,本文是第一个涵盖医学领域中利用的基于扩散的模型的文章。(勇当时代弄潮儿)本文希望这项工作将指出新的路径,为研究人员提供路线图,并激发视觉领域的进一步兴趣,以发现利用扩散模型在医学领域的潜力。
  
Figure 1:图(a)显示了根据应用分类的已发表论文的相对比例,图(b)根据其成像方式分类的相对比例。(c)表示在医学领域发表的基于扩散的研究论文的数量。
在这里插入图片描述
  本文的主要贡献包括:
  (1)这是第一篇全面涵盖扩散模型在医学成像领域应用的调查研究。具体地说,本文对所有可用的相关论文进行了全面的概述(直到2022年10月),并在2023年4月之前展示一些最新的技术。
  (2)本文设计了一个医学领域扩散模型的多视角分类,为扩散模型及其应用的研究提供了一个系统的分类。将现有的扩散模型分为两类:variational-based modelsscore-based models。此外,将扩散模型的应用分为九类:图像到图像的转义、重建、配准、分类、分割、去噪、图像生成、异常检测和其他应用。(很喜欢这种清晰明确的分类方式
  (3)本文没有将注意力限制在应用上,并提供了一个新的分类法(见图5),其中每篇论文分别根据所提出的算法以及相关器官和成像方式进行了广泛的分类。
  (4)最后,讨论了挑战和开放的问题,并确定了新的趋势,提出了关于扩散模型在医疗领域的算法和应用的未来发展问题。

2、理论

  扩散模型是一种前沿的生成模型,已被证明在学习复杂数据分布方面非常有效。它们是生成式学习领域的一个相对较新的补充,但已被证明在各种应用中都很有用。在本节中,将深入研究扩散模型的理论。
  本节首先讨论扩散模型在更广泛的生成学习领域中的地位,并提供一个关于它们与其他生成模型的比较的新视角。我们进一步将扩散模型分为两个主要视角:变分视角(Variational Perspective)分数视角(Score Perspective)。我们深入研究了它们的细节,并强调了属于它们的特定模型,例如变分视角中的DDPMs和分数视角中的NCSNs和SDEs。最后,我们提供了对这些方法背后的潜在理论的全面理解。
  
Figure 2:不同的生成模型的基本原理概述
在这里插入图片描述

2.1 扩散模型如何适合生成式学习(Where do diffusion models fit the generative learning landscape?)

  随着可用数据集的显著激增,以及通用深度学习架构的进步,生成建模发生了革命性的范式转变。具体来说,三种主流生成框架包括,GANs,VAEs和归一化流(见图2)。生成模型在实际问题中通常需要一些关键要求。这些要求包括(i)高质量采样,(ii)模式覆盖和样本多样性,以及(iii)快速执行时间和计算成本低廉的采样(见图3)。
  
Figure 3:生成学习三难困境
在这里插入图片描述
  生成模型经常在这些标准之间做出调整。具体而言,GANs能够快速生成高质量的样本,但其模式覆盖范围较差,且容易缺乏采样多样性。相反,尽管VAEs和归一化流在覆盖数据模式中占优势,但仍存在低样本质量的固有特性。(GANs与VAEs均有优缺点
  GANs由两个模型组成:一个生成器和一个鉴别器,它们相互竞争,同时使彼此更强。生成器试图捕获真实样本的分布,而鉴别器,通常是一个二元分类器,估计一个给定样本来自真实数据集的概率。其作为一个评判者,经过不断优化以识别生成样本和真实样本。GANs的一个常见问题是其训练动态被认为是不稳定的,导致模态崩溃、梯度消失和收敛等缺陷。因此,巨大的兴趣也影响了GANs的研究方向,以提出更高效的变体。
  VAEs通过最大化证据下限(evidence lower bound,ELBO)来优化数据的对数似然。尽管取得了显著的成就,但由于平衡问题和变量崩溃现象等理论和实践上的挑战,VAEs的表现仍不能令人满意。
  通过一系列可逆变换构造了一个基于流的生成模型。具体来说,归一化流通过应用一系列可逆变换函数将简单分布转换为复杂分布,其中可以使用变量变换定理获得最终目标变量的期望概率分布。与GANs和VAEs不同,这些模型明确地学习数据分布;因此,它们的损失函数只有负对数似然值。
  尽管设计得很可行,但这些生成模型也有其特定的缺点。由于基于似然的方法必须构造一个归一化概率模型,因此必须使用特定类型的架构(自回归模型,流模型),或者在VAE的情况下,不直接为生成的概率分布计算替代损失,如ELBO。相比之下,由于GAN的对抗性损失的性质,GAN的学习过程本身是不稳定的。
  最近,扩散模型已经成为强大的生成模型,展示了计算机视觉领域的主要主题之一,因此研究人员和从业人员都可能发现跟上创新速度是一项挑战。(确实是个巨大的挑战,跟不上,根本跟不上…

  扩散模型是一类功能强大的概率生成模型,用于学习复杂的数据分布。这些模型通过利用两个关键阶段:正向扩散过程反向扩散过程来实现这一点。前向扩散过程在输入数据中加入噪声,逐渐提高噪声水平,直到数据转化为纯高斯噪声。这个过程系统地扰乱了数据分布的结构。然后应用反向扩散过程,也称为去噪,从扰动数据分布中恢复数据的原始结构。这一过程有效地消除了由正向扩散过程引起的退化。其结果是一个高度灵活和易于处理的生成模型,可以准确地从随机噪声模拟复杂的数据分布。

2.2 变分视角(Variational Perspective)

  变分视角包括使用变分推理来近似目标分布的模型,通常通过最小化近似分布和目标分布之间的Kullback-Leibler散度来实现的。去噪扩散概率模型(DDPMs)是这类模型的一个例子,因为它们使用变分推理方法来估计扩散过程的参数。

2.2.1 去噪扩散概率模型(Denoising Diffusion Probabilistic Models)

  前向过程
  DDPM将前向扩散过程定义为一个马尔可夫链,在这个马尔可夫链中,经过连续的步骤加入高斯噪声,得到一组有噪声的样本。设 q ( x 0 ) {q\left( {{x_0}} \right)} q(x0) 为原始数据分布,给定一个数据样本 x 0 ∼ q ( x 0 ) {{x_0} \sim q\left( {{x_0}} \right)} x0q(x0),通过在 t {t} t 时刻加入高斯噪声,产生潜在从 x 1 {x_1} x1 x T {x_T} xT 的前向噪声过程 p {p} p 定义如下所示:
q ( x t ∣ x t − 1 ) = N ( x t ; 1 − β t ⋅ x t − 1 , β t ⋅ I ) , ∀ t ∈ { 1 , ⋯   , T } (1) {q\left( {{x_t}|{x_{t - 1}}} \right) = { \mathcal{N}}\left( {{x_t};\sqrt {1 - {\beta _t}} \cdot {x_{t - 1}},{\beta _t} \cdot {\rm{I}}} \right),\forall t \in \left\{ {1, \cdots ,T} \right\} \tag{1}} q(xtxt1)=N(xt;1βt xt1,βtI),t{1,,T}(1)   其中, T {T} T β 1 , ⋯ β T ∈ [ 0 , 1 ) {{\beta _1}, \cdots {\beta _T} \in \left[ {0,1} \right)} β1,βT[0,1)分别表示扩散步骤的数量和在扩散步骤之间的方差调度(有研究说余弦调度比较好), I {\rm{I}} I 为单位矩阵, N ( x ; μ , σ ) {{{\mathcal{N}}}\left( {x;\mu ,\sigma } \right)} N(x;μ,σ) 代表均值为 μ {\mu } μ,方差为 σ {\sigma} σ 的正态分布。
  设 α t = 1 − β t {{\alpha _t} = 1 - {\beta _t}} αt=1βt α ˉ t = ∏ s = 0 t α s {{\bar \alpha _t} = \prod _{s = 0}^t{\alpha _s}} αˉt=s=0tαs ,可以直接采样输入 x 0 {x_0} x0 在任意步下的潜在映射,如下所示:
q ( x t ∣ x 0 ) = N ( x t ; α ˉ t x 0 , ( 1 − α ˉ t ) I ) (2) {q\left( {{x_t}|{x_0}} \right) = \mathcal{N}\left( {{x_t};\sqrt {{{\bar \alpha }_t}} {x_0},\left( {1 - {{\bar \alpha }_t}} \right){\rm{I}}} \right) \tag{2}} q(xtx0)=N(xt;αˉt x0,(1αˉt)I)(2) x t = α ˉ t x 0 + 1 − α ˉ t ε (3) {{x_t} = \sqrt {{{\bar \alpha }_t}} {x_0} + \sqrt {1 - {{\bar \alpha }_t}} \varepsilon \tag{3}} xt=αˉt x0+1αˉt ε(3)  反向过程
  利用上述定义,可以近似一个方向过程以便从 q ( x 0 ) {q\left( {{x_0}} \right)} q(x0) 中获得一个样本,为此,可参数化该反向过程,从 p ( x T ) = N ( x T ; 0 , I ) {p\left( {{x_T}} \right) = \mathcal{N}\left( {{x_T};0,{\rm{I}}} \right)} p(xT)=N(xT;0,I) 开始:
p θ ( x 0 : T ) = p ( x T ) ∏ t = 1 T p θ ( x t − 1 ∣ x t ) (4) {{p_\theta }\left( {{x_{0:T}}} \right) = p\left( {{x_T}} \right)\prod\limits_{t = 1}^T {{p_\theta }\left( {{x_{t - 1}}|{x_t}} \right)} \tag{4}} pθ(x0:T)=p(xT)t=1Tpθ(xt1xt)(4) p θ ( x t − 1 ∣ x t ) = N ( x t − 1 ; μ θ ( x t , t ) , ∑ θ ( x t , t ) ) (5) {{p_\theta }\left( {{x_{t - 1}}|{x_t}} \right) = \mathcal{N}\left( {{x_{t - 1}};{\mu _\theta }\left( {{x_t},t} \right),\sum\nolimits_\theta {\left( {{x_t},t} \right)} } \right) \tag{5}} pθ(xt1xt)=N(xt1;μθ(xt,t),θ(xt,t))(5)  为了训练这个模型,使 p ( x 0 ) {p\left( {{x_0}} \right)} p(x0) 学习真实的数据分布 q ( x 0 ) {q\left( {{x_0}} \right)} q(x0),我们可以优化以下负对数似然的变分界(概率用于在已知参数的情况下,预测接下来的观测结果;似然性用于根据一些观测结果,估计给定模型的参数可能值):
E [ − log ⁡ p θ ( x 0 ) ] ≤ B q [ − log ⁡ p θ ( x 0 : T ) q ( x 1 : T ∣ x 0 ) ] = E q [ − log ⁡ p ( x T ) − ∑ t ≥ 1 log ⁡ p θ ( x t − 1 ∣ x t ) q ( x t ∣ x t − 1 ) ] = − L V L . B ⋅ (6) {\begin{array}{l} \mathbb{E}\left[ { - \log {p_\theta }\left( {{x_0}} \right)} \right] \le {\mathbb{B}_q}\left[ { - \log \frac{{{p_\theta }\left( {{x_{0:T}}} \right)}}{{q\left( {{x_{1:T}}|{x_0}} \right)}}} \right] \\ = {\mathbb{E}_q}\left[ { - \log p\left( {{x_T}} \right) - \sum\limits_{t \ge 1} {\log \frac{{{p_\theta }\left( {{x_{t - 1}}|{x_t}} \right)}}{{q\left( {{x_t}|{x_{t - 1}}} \right)}}} } \right] = - {L_{VL.B \cdot }} \\ \end{array} \tag{6}} E[logpθ(x0)]Bq[logq(x1:Tx0)pθ(x0:T)]=Eq[logp(xT)t1logq(xtxt1)pθ(xt1xt)]=LVL.B(6)   有研究发现,最好不要直接将 μ θ ( x t , t ) {{{\mu _\theta }\left( {{x_t},t} \right)}} μθ(xt,t) 参数化为一个神经网络,而是训练一个模型 ε θ ( x t , t ) {{{\varepsilon _\theta }\left( {{x_t},t} \right)}} εθ(xt,t) 来预测 ε {\varepsilon} ε。因此,通过重新参数化式(6),他们提出了一个简化的目标如下:
L s i m p l e = E t , x 0 , ε [ ∥ ε − ε θ ( x t , t ) ∥ 2 ] (7) {{L_{simple}} = {E_{t,{x_0},\varepsilon }}\left[ {{{\left\| {\varepsilon - {\varepsilon _\theta }\left( {{x_t},t} \right)} \right\|}^2}} \right] \tag{7}} Lsimple=Et,x0,ε[εεθ(xt,t)2](7)   在 Song and Ermon 的工作中,作者在式(6)中的损失与生成分数网络(generative score networks)之间建立了联系。

  推荐阅读:How diffusion models work: the math from scratch

2.3 分数视角(Score Perspective)

  分数视角模型依赖于基于最大似然的估计方法,使用数据的对数似然的得分函数来估计扩散过程的参数。噪声条件评分网络(NCSNs)和随机微分方程(SDEs)都属于这一类别。NCSNs 侧重于估计不同噪声水平下扰动数据分布的对数密度函数的导数,而 SDEs 是对之前方法的归纳,并包含了 DDPMs 和 NCSNs 的特征。下面将详细阐述每类别的细节。

2.3.1 噪声条件评分网络(Noise conditioned score networks)

  某些数据分布 p ( x ) {p\left( {{x}} \right)} p(x) 的分数函数被定义为对数密度相对于输入的梯度, ∇ x log ⁡ p ( x ) {{\nabla _x}\log p\left( x \right)} xlogp(x)。为了估计这个分数函数,我们可以训练一个具有分数匹配的共享神经网络(shared neural network)。具体来说,分数网络 s θ {{s_\theta }} sθ 是一个由 θ {\theta } θ 参数化的神经网络,该网络训练来近似 p ( x ) {p\left( {{x}} \right)} p(x) 的得分,即 s θ ( x ) ≈ ∇ x log ⁡ p ( x ) {{s_\theta }\left( x \right) \approx {\nabla _x}\log p\left( x \right)} sθ(x)xlogp(x) ,优化目标为:
E x ∼ p ( x ) ∥ s θ ( x ) − ∇ x log ⁡ p ( x ) ∥ 2 2 (8) {{E_{x \sim p\left( x \right)}}\left\| {{s_\theta }\left( x \right) - {\nabla _x}\log p\left( x \right)} \right\|_2^2 \tag{8}} Exp(x)sθ(x)xlogp(x)22(8)  然而,由于计算 ∇ x log ⁡ p ( x ) {{\nabla _x}\log p\left( x \right)} xlogp(x) 的计算负担,分数匹配不能扩展到深度网络和高维数据。为了解决这个问题,Song and Ermon 提出了去噪分数匹配(denoising score matching)和切片分数匹配(sliced score matching)。
  此外,Song和Ermon强调了基于分数的生成建模应用的主要挑战。关键的挑战是,估计的分数函数在低密度区域是不准确的,因为现实世界中的数据往往集中在嵌入高维空间的低维流形上(流形假设)。作者证明,这些问题可以通过在不同尺度上用高斯噪声扰动数据来解决,因为它使数据分布更适合基于分数的生成建模。他们建议通过训练一个单个噪声条件评分网络(NCSN)来估计所有噪声水平对应的分数。
  通过选择噪声分布 p σ t ( x t ∣ x ) = N ( x t ; x , σ t 2 ⋅ I ) {{p_{{\sigma _t}}}\left( {{x_t}|x} \right) = \mathcal{N}\left( {{x_t};x,\sigma _t^2 \cdot {\rm{I}}} \right)} pσt(xtx)=N(xt;x,σt2I) ,将 ∇ x log ⁡ p ( x ) {{\nabla _x}\log p\left( x \right)} xlogp(x) 推导为 ∇ x t log ⁡ p σ t ( x t ∣ x ) = − x t − x σ t {{\nabla _{{x_t}}}\log {p_{{\sigma _t}}}\left( {{x_t}|x} \right) = - \frac{{{x_t} - x}}{{{\sigma _t}}}} xtlogpσt(xtx)=σtxtx ,式(8)可以写为:
1 T ∑ t = 1 T λ ( σ t ) E p ( x ) E x t ∼ p σ t ( x t ∣ x ) ∥ s θ ( x t , σ t ) + x t − x σ t ∥ 2 2 (9) {\frac{1}{T}\sum\limits_{t = 1}^T {\lambda \left( {{\sigma _t}} \right)} {\mathbb{E}_{p\left( x \right)}}{\mathbb{E}_{{x_t} \sim {p_{{\sigma _t}}}\left( {{x_t}|x} \right)}}\left\| {{s_\theta }\left( {{x_t},{\sigma _t}} \right) + \frac{{{x_t} - x}}{{{\sigma _t}}}} \right\|_2^2} \tag{9} T1t=1Tλ(σt)Ep(x)Extpσt(xtx) sθ(xt,σt)+σtxtx 22(9)   其中, λ ( σ t ) {{\lambda \left( {{\sigma _t}} \right)}} λ(σt) 是权重函数,这个推导是使用一个被称为“朗之万动力学(Langevin dynamics)”的迭代过程来完成的。朗之万动力学设计了一个MCMC程序,仅使用分数函数 ∇ x log ⁡ p ( x ) {{\nabla _x}\log p\left( x \right)} xlogp(x) 从分布 p ( x ) {p\left( {{x}} \right)} p(x) 中抽样。具体来说,要将一个随机样本 x 0 ∼ π ( x ) {{x_0} \sim \pi \left( x \right)} x0π(x) 转为来自 p ( x ) {p\left( {{x}} \right)} p(x) 的样本,它需经以下步骤迭代:
x i = x i − 1 + γ 2 ∇ x log ⁡ p ( x ) + γ ⋅ ω i (10) {{x_i} = {x_{i - 1}} + \frac{\gamma }{2}{\nabla _x}\log p\left( x \right) + \sqrt \gamma \cdot {\omega _i} \tag{10}} xi=xi1+2γxlogp(x)+γ ωi(10)   其中, ω i ∼ N ( 0 , I ) {{\omega _i} \sim \mathcal{N}\left( {0,{\rm{I}}} \right)} ωiN(0,I) i ∈ { 1 , … , N } {i \in \{ 1, \ldots ,N\} } i{1,,N}。当 γ → 0 {\gamma \to 0} γ0 N → ∞ {N \to \infty } N 时,从这个过程中得到的样本 x i {x_i} xi 将收敛到来自分布 p ( x ) {p\left( {{x}} \right)} p(x) 的样本。(只想说…好读书不求甚解…解不动…
  Song and Ermon 提出对该算法的名称进行更改,称为退火朗之万动力学算法,因为噪声尺度 σ i {{{\sigma _i}}} σi 随着时间的推移逐渐降低(退火),以缓解分数匹配的一些缺陷和失效模式。

2.3.2 随机微分方程(Stochastic differential equations)

  与上述两种方法类似,基于分数的生成模型(score-based generative models,SGMs)将数据分布 q ( x 0 ) {q\left( {{x_0}} \right)} q(x0) 转换为噪声。然而,通过将噪声尺度的数量推广到无穷大,可以将之前的概率模型视为SGM的离散化。我们知道,许多随机过程,如扩散过程,都是随机微分方程(SDE)的解(随机过程常用随机微分方程来建模),其形式如下:
d x = f ( x , t ) d t + g ( t ) d w (11) {dx = f\left( {x,t} \right)dt + g\left( t \right)dw \tag{11}} dx=f(x,t)dt+g(t)dw(11)   其中, f ( ⋅ , t ) {f\left( { \cdot ,t} \right)} f(,t) 是SDE的漂移系数, g ( t ) {g\left( t \right)} g(t) 为扩散系数, w {w} w 代表标准的布朗运动。设 x 0 {x_0} x0 为未损坏的数据样本, x T {x_T} xT 表示近似于标准高斯分布的扰动数据。对于给定的正向SDE,存在一个反向时间SDE,从 p T {p_T} pT 样本开始,反向扩散SDE,就可以从我们的数据分布中获得样本 p 0 {p_0} p0 。反向时间SDE为:
d x = [ f ( x , t ) − g 2 ( t ) ∇ x log ⁡ p t ( x ) ] d t + g ( t ) d w ˉ (12) {dx = \left[ {f\left( {x,t} \right) - {g^2}\left( t \right){\nabla _x}\log {p_t}\left( x \right)} \right]dt + g\left( t \right)d\bar w \tag{12}} dx=[f(x,t)g2(t)xlogpt(x)]dt+g(t)dwˉ(12)   其中, d t {dt} dt 为无穷小的负时间步长, w ˉ {\bar w} wˉ 是反向布朗运动。为了数值求解反向时间SDE,可以训练神经网络通过分数匹配来近似实际分数函数来估计 s θ ( x , t ) ≃ ∇ x log ⁡ p t ( x ) {{s_\theta }\left( {x,t} \right) \simeq {\nabla _x}\log {p_t}\left( x \right)} sθ(x,t)xlogpt(x)。该分数模型的训练目标如下:
L ( θ ) = E x ( t ) ∼ p ( x ( t ) ∣ x ( 0 ) ) , x ( 0 ) ∼ p d a t a × [ λ ( t ) 2 ∥ s θ ( x ( t ) , t ) − ∇ x ( t ) log ⁡ p t ( x ( t ) ∣ x ( 0 ) ) ∥ 2 2 ] (13) {\mathcal{L}\left( \theta \right) = {\mathbb{E}_{x\left( t \right) \sim p\left( {x\left( t \right)|x\left( 0 \right)} \right),x\left( 0 \right) \sim {p_{data}}}} \times \left[ {\frac{{\lambda \left( t \right)}}{2}\left\| {{s_\theta }\left( {x\left( t \right),t} \right) - {\nabla _{x\left( t \right)}}\log {p_t}\left( {x\left( t \right)|x\left( 0 \right)} \right)} \right\|_2^2} \right] \tag{13}} L(θ)=Ex(t)p(x(t)x(0)),x(0)pdata×[2λ(t) sθ(x(t),t)x(t)logpt(x(t)x(0)) 22](13)  其中, λ {{\lambda}} λ 是权重函数, t ∼ U ( [ 0 , T ] ) {t \sim \mathcal{U}\left( {\left[ {0,T} \right]} \right)} tU([0,T]),值得注意的是, ∇ x log ⁡ p t ( x ) {{{\nabla _x}\log {p_t}\left( x \right)}} xlogpt(x) ∇ x ( t ) log ⁡ p t ( x ( t ) ∣ x ( 0 ) ) {{{\nabla _{x\left( t \right)}}\log {p_t}\left( {x\left( t \right)|x\left( 0 \right)} \right)}} x(t)logpt(x(t)x(0)) 替代,以规避技术困难。

  SDEs的采样过程可以通过对式(12)应用任意数值方法来完成,下面将详细讨论三种常用的技术:

  (1)Euler-Maruyama (EM)方法 :使用一种简单的离散化技术,用 Δ t {\Delta t} Δt 和 带有高斯噪声 z ∼ N ( 0 , Δ t ⋅ I ) {z \sim \mathcal{N}\left( {0,\Delta t \cdot {\rm{I}}} \right)} zN(0,ΔtI) d w ˉ {d\bar w} dwˉ 代替 d t {dt} dt ,式(12)可求解。
  (2)Prediction–Correction (PC) 方法:在这种方法中,预测和校正过程在嵌套循环中进行,其中首先对先验数据进行预测,然后分几个步骤进行校正。预测器可以用EM求解。由于该校正器可以是任何基于分数的马尔可夫链蒙特卡罗(MCMC)方法,包括退火的朗之万动力学,因此可以利用式(10)中的朗之万动力学来求解。
  (3)Probability Flow ODE (ODE) 方法:式(11)中的SDE方程可写成如下ODE方程:
d x = [ f ( x , t ) − 1 2 g 2 ( t ) ∇ x log ⁡ p t ( x ) ] d t (14) {dx = \left[ {f\left( {x,t} \right) - \frac{1}{2}{g^2}\left( t \right){\nabla _x}\log {p_t}\left( x \right)} \right]dt \tag{14}} dx=[f(x,t)21g2(t)xlogpt(x)]dt(14)  因此,通过解决ODE问题,可以找到 x 0 {x_0} x0。然而,尽管ODE是一个快速求解器,但它缺乏一个随机项来纠正错误,导致性能略有下降。(总的感觉是模好建,解难求…


3、临床重要性

  生成模型对医学成像领域产生了重大影响,在医学成像领域,迫切需要工具来改善临床医生和患者的日常工作。具体地说,数据收集过程的复杂性、专家的缺乏、隐私问题以及对患者授权的强制要求是医学影像标注过程的主要瓶颈。这就是生成模型的优势所在(数据不好拿,涉及伦理,且标注需要专业知识)。
  一些观点促进了我们对医学成像的生成扩散模型的兴趣。在医学领域,因为某些病具有罕见性,许多数据集存在严重的类别失衡。扩散模型可以通过生成不同的逼真图像来缓解这一限制。此外,生成合成医学图像具有重要的教育价值。扩散模型能够产生不同医学成像模式的独特实例,通过合成不同的样本满足教学和实践的需求。此外,这些合成图像可以减轻在公共环境中使用患者数据的安全问题,还可以解决为医学应用训练深度神经网络的一个特大困难(数据不足)。
  一般来说,标注医学图像是一个漫长而昂贵的过程,需要专家帮助。因此,利用扩散模型生成合成样本可以在很大程度上缓解医疗数据稀缺的问题。图4展示了Moghadam(2023)等人利用扩散模型,生成具有罕见癌症亚型的组织病理学图像的案例。
  
Figure 4:MFDPM生成的10张组织病理图像
在这里插入图片描述

  虽然独立使用生成模型合成数据仍处于早期阶段,但研究表明,在真实场景中利用它们取得了可喜的结果。Goncalves(2020)等评估了生成电子健康记录的不同方法,发现其中一些方法在实践中可能是用的,因为它们生成的合成样本具有与真实数据相似的统计特性,且不会损害患者隐私。
  在另一项研究中,Chen(2021a)等发现,与只使用真实数据相比,同时使用合成数据和真实数据来训练组织学图像可以提高分类器的性能。
  此外,Akrout(2023)等的研究表明,利用扩散模型生成的合成图像可以提高皮肤分类器的准确性,并且使用合成数据和真实数据相结合训练的模型比仅使用一个数据源训练的模型表现更好。
  Moghadam等(2023)进行了一项研究,让两名不同专业水平的病理学家,评估合成图像和实际图像的形态学特性。结果显示,病理学家无法区分扩散模型生成的合成图像与真实图像,并且他们正确识别的一小部分中的大多数置信度较低。总体而言,研究结果表明,合成图像与真实图像有令人信服的相似之处,可以有效地用于医学研究中的模型训练。此外,联合使用合成数据和真实数据有可能提高各种应用的性能,因为合成数据是对真实数据的强大增强。(生成数据一定程度上增加了数据多样性

  使用生成模型,特别是扩散模型,作为生物医学成像逆问题( biomedical inverse imaging problems)的生成先验是该领域的最新发展。在成像逆问题中,目标是从观察或测量中推断出目标或系统的潜在物理特性。(逆问题指的是,从获得的成像数据中,推断或反演出关于生物体内部结构和功能的信息,又长知识了…
  成像逆问题的传统方法通常使用基于模型的先验,这些先验是对指导重建过程的目标或系统属性的假设。生成模型,特别是扩散模型,可以作为这些基于模型的先验的替代方案,因为它们可以提供更准确的数据分布表示。生成模型是在真实数据上训练的,这意味着它们可以学习数据中存在的复杂模式和结构。因此,它们可以为重建过程提供更准确的先验,从而更准确地重建目标或系统。
  扩散模型在生物医学成像逆问题领域的普及还有其他原因。其中一个原因是,它们可以用来处理高维和复杂的数据,比如医学图像,这种数据很难用传统方法建模。此外,扩散模型还可以提供一种更有效和准确的方法来推断物体或系统的潜在物理特性,并可以处理测量或观察中的不确定性和噪声。

  总之,扩散模型已被证明是一种有价值的多功能工具,可以在临床环境中使用,并解决各种成像挑战,预计它们的使用将在未来继续扩大,为医学成像和研究提供新的机会。


  公式太多,脑子糊了…下一篇再续上扩散模型的应用,包括图像转译,图像重建,图像配准,图像分类,图像分割,图像去噪,图像生成,异常检测,以及一些多学科应用嗷~

  • 34
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值