医图顶刊 TMI'24 | 基于互信息引导扩散的零样本跨模态医学图像翻译

点击下方“ReadingPapers”卡片,每天获取顶刊论文解读

论文信息

题目:Mutual Information Guided Diffusion for Zero-Shot Cross-Modality Medical Image Translation

基于互信息引导扩散的零样本跨模态医学图像翻译

作者:Zihao Wang, Yingyu Yang, Yuzhou Chen, Tingting Yuan, Maxime Sermesant, Hervé Delingette, and Ona Wu


摘要

跨模态数据翻译在医学图像计算中引起了极大的兴趣。深度生成模型在解决相关挑战方面显示出性能提升。尽管如此,作为图像翻译的一个基本挑战,零样本学习跨模态图像翻译的保真度问题仍未得到解决。为了弥补这一空白,我们提出了一种新颖的无监督零样本学习方法,称为互信息引导扩散模型(Mutual Information guided Diffusion Model),该模型通过利用不同模态之间的固有统计一致性来学习将未见过的源图像翻译到目标模态。为了克服高维互信息计算的难题,我们提出了一种可微分的局部互信息层,用于调节迭代去噪过程。局部互信息层在统计域中捕获相同的跨模态特征,提供扩散指导,而不依赖于源和目标域之间的直接映射。这一优势使我们的方法能够适应变化的源域,而无需重新训练,这在没有足够的标记源域数据时非常实用。我们通过与其他生成模型(包括基于对抗和基于扩散的模型)的实证比较,展示了MIDiffusion在零样本跨模态翻译任务中的优越性能。最后,我们展示了MIDiffusion在3D零样本学习基础的跨模态图像分割任务中的实际应用。

关键字

零样本学习,跨模态翻译,扩散模型,互信息。

引言

利用现有工具解决新问题是一种旨在最大化经济效用的方法,特别是在处理不同成像模态时。在医学成像领域,某些模态(如T1加权MRI(T1w))的分析资源丰富。相比之下,像质子密度加权MRI(PDw)这样的模态并不经常进行,可能没有足够的软件选项来执行高级分析,如分割。这些困难的出现有多种原因,包括患者与特定成像技术的兼容性,以及与成像程序相关的成本和时间考虑。更有效地是调整已经为T1w等成熟模态开发的现有分析工具,以用于PDw等模态。这避免了为每种模态开发新的专业工具的需要。跨模态图像翻译是通过促进不同成像模态之间的现有资源使用,来克服这些挑战的有前途的解决方案[1],[2]。当试图在没有源域训练数据的情况下进行跨模态翻译时,就会出现一个特别具有挑战性的场景,这被称为零样本跨模态翻译。尽管我们的主要关注点是跨模态图像翻译,从更广泛的角度来看,这项任务可以被视为无监督领域自适应(UDA)的一个子领域[3],[4],[5]。UDA有助于利用不同领域之间的知识,从而大大提高了机器学习模型在各种环境中的适用性[6]。然而,缺乏源数据集知识增加了我们的任务(零样本)的复杂性,超出了典型的UDA问题[7]。许多基于映射的模态转换方法[8],[9],[10]依赖于源和目标模态之间的像素级建模,因此需要成对的图像集合,这在实践中往往难以收集。基于生成对抗网络(GAN)的方法[11],[12],[13],[14],[15],[16],[17]由于之前基于映射的方法的各种缺点而被提出。生成模型被广泛用于直接建模目标模态,从而实现翻译的真实性[18],[19]。这种方法通常涉及复杂的对抗架构设计和为不同翻译任务设计的模态任务特定损失函数[20]。尽管基于生成对抗的翻译不需要成对的数据集进行训练,但它仍然需要源域数据,这可能难以收集,导致样本不足,无法平衡循环一致性训练[21],[22]。最近的工作[23],[24],[25],[26],[27],[28]表明基于分数的生成模型比基于GAN的模型表现更好。Meng等人[20]提出了SDEdit,它采用了扩散模型(DM)[29]来执行图像翻译,以零样本学习的方式平衡了保真度和真实性。与几乎端到端生成的常规GAN或基于映射的模型不同,DM是一种基于分数的生成模型[30],它依赖于由随机微分方程(SDE)驱动的扩散序列的迭代去噪。SDEdit在模型结构和损失函数复杂性方面优于基于GAN的翻译模型。然而,SDEdit在跨模态翻译方面仍有局限性。它依赖于基于扰动的指导,假设源和目标域都可以通过噪声有效地扰动,这在许多跨模态翻译任务中可能不成立(例如,MRI T2到T1图像翻译)。此外,SDEdit需要优化初始时间t0以找到扰动的最佳间隔[20]。Muzaffer等人[31]提出了SynDiff,这是一种具有双边扩散的循环一致架构,用于语义一致性,计算成本翻倍,需要预先训练一个生成器来估计成对的源图像,并且需要源域数据。Energy-Guided Symmetric Diffusion Equation(EGSDE)框架[32]利用在源和目标域之间预训练的能量函数模型,用于成对图像翻译,与现有的基于分数的扩散模型相比表现出优越性能。然而,EGSDE需要从两种模态收集大量样本来训练能量函数模型,这限制了其在数据不完美的情况下的有效性,如零或少样本情况。Huang等人[33]引入了一种基于频率域分析的扩散引导方法,用于同一模态内的零样本图像翻译,如锥形束计算机断层扫描系统(CBCT)到CT和跨医院T1w MRI翻译,显示出杰出的结果。然而,频谱信息通常在不同模态之间不一致,限制了其在跨模态图像翻译任务中的适用性。我们方法的动机是利用统计特征的一致性来克服现有跨模态翻译方法的零样本学习挑战,这些特征通常在不同领域的图像中看到,用于调节扩散过程。使用统计措施来指导生成过程的原理基于其对像素值均匀变化的鲁棒性。这一原则在考虑不同成像模态下的同一扫描对象时特别相关:尽管成像技术不同,一致对象的强度倾向于均匀变化。例如,在T2w MRI扫描中,由于其长的T2弛豫时间,脑室中的脑脊液(CSF)呈现明亮,而在CT扫描中,由于密度较低,它呈现较暗。即使MRI强度范围在200−220,CT强度范围在30−50,像互信息这样的鲁棒措施可以识别共享的统计模式。这是因为相对结构对比在MRI和CT之间变化的绝对强度之间保持一致。要使用统计特征的一致性进行跨模态图像翻译,我们提出了一种新的基于随机扩散过程的零样本无监督学习方法。与从源数据域寻求任何条件指导不同,我们的模型利用统计特征的一致性来调节扩散过程(见图1)。这使我们能够在初始时间步骤使用它们的统计属性来桥接源和目标域,绕过寻找最佳中间时间步骤以平衡真实性和保真度的搜索。图2显示了所提出的基于统计特征的条件(LM I:局部互信息)和基于扰动的条件之间的扩散指导方式的差异。我们的方法消除了对GAN框架的反转优化和对抗性损失设计的需求。与基于扰动的扩散方法不同,MIDiffusion不依赖于超参数调整来平衡真实性和保真度。(3)我们提供了MIDiffusion在下游应用中的实证证据,通过适应现有工具进行3D跨模态图像分析,从而减少了大量数据收集的实际需求。本文的结构如下。我们首先在第II节和第III节中介绍相关工作和相关理论。在第IV节中,我们概述了我们的主要方法,包括快速LMI计算的细节,构建MIDiffusion以及LMI引导扩散的前向生成算法。随后,在第V节中,我们将MIDiffusion应用于医学成像中的跨模态翻译,涵盖不同的模态并展示不同程度的统计相似性。我们在第VI节讨论了我们提出的方法的有效性和局限性,并在第VII节结束本文。

8cc82a5070fd2c4aa0de762b5c43e0b4.jpeg4b70c42e8fe729357db46bd09d8940f6.jpeg

预备知识

A. 跨模态图像翻译

两个图像G ∈ V和F ∈ U之间的跨模态图像翻译任务可以形式化为:

其中是一个将源域V中的数据G映射到目标域U中的对应数据的算子,理想情况下与F相同。具体来说,这种一般形式已广泛应用于图像合成、笔画绘画、图像配准、分割等[67]。

在零样本跨模态图像翻译中,训练阶段只有目标域F中的样本可用。鉴于目标样本,零样本学习的目标是在训练步骤中学习,而没有看到训练步骤中的G。由于在训练阶段无法访问源样本,因此构建和使用辅助信息进行域转移至关重要[68]。

B. 互信息

互信息(MI)测量两个随机变量X,Y之间的依赖性:

MI在跨模态相关任务中很有用,因为假设统计特征是相同的。它已应用于解决许多无监督学习问题,如跨模态图像检索[69],[70]、数据表示[71],[72]、领域自适应[73]和跨模态聚类[74]等。MI的一个特殊情况是使用MI测量一个随机变量本身:,称为熵。

C. 分数匹配及其去噪等价

与基于变分推断或基于似然的训练不同,后者试图近似数据的真实概率分布,基于分数的模型通过其偏导数信息(即分数函数)来表示分布。学习模型和之间的最大化过程需要获得准确分布的显式形式,通常保持未知。与寻找的形式不同,去噪分数匹配方法[42],[43]通过直接估计分数函数来避免寻找:

其中是干净数据x和噪声污染观测之间的梯度;只要噪声由高斯核驱动:,模型旨在学习去噪过程[42]。

D. 基于SDEs的分数生成建模

Song等人[29]将上述去噪分数匹配模型推广到SDE框架中,并通过采样统一了生成过程,该过程也是一个扩散过程。神经网络以隐式去噪形式进行训练,将噪声添加步骤视为扩散过程。由标准正态分布驱动的扩散过程,其中控制输入噪声的大小,表示Wiener过程,是时间从0开始,以无限小增量到。我们在这里使用静态势(即“方差爆炸SDE(VESDE)”[29])进行模态翻译,该模型模拟了数据(目标模态)的大小。添加噪声的方程4是使用高斯转移核执行分数匹配的类似步骤。训练目标是,通过SDE 4定义的扩散过程,与方程3具有类似的训练目标,但是期望在时间上均匀采样于[0, T]:;因此,训练目标变成了多步条件而不是单步:

只要分数模型学习到分布分数,我们就可以利用反向SDE[20],[29],[75]通过推断一个向后时间的动态过程来采样数据点:

其中是一个具有无限小负增量的时间的Wiener过程。

方法

A. 扩散用于跨模态图像翻译

我们可以通过将目标数据F生成任务适应到分数匹配框架中,然后使用扰动的源域G来指导(调节)迭代扩散过程[20],[26],[31],[66],[76],[77]来解决跨模态图像翻译问题。理想情况下,我们希望生成的数据遵循引导数据G的语义含义,并与目标域中的地面真实图像F共享特征,平衡真实性和保真度[20],[65]。定义1:生成的图像显示真实性,这意味着它被很好地翻译到了目标域U:。定义2:生成的图像保持保真度,这意味着它从引导数据G那里得到了忠实的翻译:,其中是相似性度量。翻译真实性和保真度之间的关系与域相关性U和V有关。我们说,如果翻译在真实性和保真度之间达到了平衡点,那么翻译就实现了高保真度。然而,当源域G和目标域F之间的外观特征集的差异变得太大时,两者之间的平衡点可能既不容易捕捉也不存在,以满足令人满意的翻译。这导致当前基于分布扰动的方法(例如,SDEdit等[20],[42],[43])不适用于未监督的跨模态图像翻译,当两个域之间的数值特征存在巨大差异时。

B. 在扩散生成中使用互信息引导

在基于零样本学习的翻译任务中,我们在训练过程中无法访问源域中的数据。尽管如此,源和目标模态之间的局部统计特征假定是相同的。MI最大化已被证明是一种有效的方法,使神经网络能够学习非线性表示[71]。为了捕获这些共享的表示并使用提取的信息进行指导,我们提出使用MI来测量去噪过程中的局部统计表示。

  1. 局部互信息:为了获得数据中的语义信息以进行指导,我们需要将原始数据转换为其统计表示,因为MI是一种统计度量。给定一个图像X,对于点在位置i,可以通过概率密度函数(PDF)捕获i处的局部统计信息。不失一般性,对于在的邻域内的其他点,我们可以通过PDF获得局部统计信息;。定义3:局部互信息(LM I)从图像X到图像Y在点处定义为:

在前向步骤(训练)中,我们可以使用方程7作为参考信号来调节每个扩散步骤;这是通过在训练过程中计算,来实现的。定理1:X到Y在位置i处的LM I的上界是:,这是X和Y在点处的最大信息匹配。定理2:MIDiffusion生成的翻译误差是。我们在附录中证明了定理1和2。定理1表明,当时,LM I达到最大(统计相似性)。因此,LM I在训练步骤中总是达到X0和Xt之间的相同位置;然而,当时,LM I在位于的邻域中的j处达到局部最大值。可翻译性量化:定理2表明,当指导差异达到零时,翻译误差消失。相反,如果指导信号的差异趋于无穷大,翻译误差变得无限大。为了量化使用统计特征进行扩散指导的两种模态之间的可翻译性,我们引入了以下基于LM I的卡方度量:

这里,表示LM I的概率密度函数。CSLM I的值越低,表示两种模态之间的LM I差异越小,根据定理2,这将导致更好的翻译性能。通过使用方程8,我们可以在训练模型之前定量分析使用所提出的模型进行跨模态图像翻译的可行性。图5提供了三个不同数据集的CSLM I度量,将在第VI节中讨论。我们已经定义了用于调节迭代扩散过程的LM I。然而,作为统计度量,LM I的计算成本非常高。迭代训练分数模型需要许多步骤的离散时间调节。使用滑动窗口或块循环来计算每个时间步骤之间的LM I是不现实的。为了克服在分数匹配模型中应用LM I的瓶颈,我们开发了一种有效的方法来在扰动和去噪步骤中计算LM I。

4ed876bacf48607ecd63d23d4200efb7.jpeg

  1. 可微分局部互信息层:定义4:设X(i)是在Rn中定义的函数,那么Cδ(X) ∈ Rn是X在邻域K · δ中的周期性扩展,K ∈ Z:

定义5:设Y(i)是在Rn中定义的函数,那么Bδ(Y) ∈ Rn是Y在邻域k · δ中的k步(k ∈ Zn)滑动扩展:

对于τ:0 → δ,增量为。Def. 5和4可以被理解为函数Y和X在邻域δ中的“段对段”线性插值和最近邻插值[78]。图3(II)展示了应用于1D函数的Def. 4和Def. 5的算子,其中两个函数X和Y(图3(I))由算子C和B处理。命题1:给定两个函数F ∈ U和G ∈ U在R2中,G和F之间的LM I(Def. 7)可以通过以下算子计算:

其中K是核密度估计器,用于近似PDF。Prop. 1通过将迭代互信息计算转换为张量操作来加速MI计算,这可以通过GPU中的内存复制和并行归约来加速[79]。

62fe4f6ea1515fb7dff55989e5eab5bd.jpeg

算法1 互信息引导扩散 输入:G, sθ, 时间tT →0 ∈ [0, T], 步长dt 输出:生成的高保真数据初始化所有参数,变量; 当t < T时 z ~ N(0, 1);t ← t + dt;ϵ = σ^2t − σ^2(t−dt); $\hat{F}_{t+1} \leftarrow \hat{F}_t + ϵsθ( \hat{Ft, \text{LM I}(G; G, \hat{F}_t), t) + \sqrt{ϵ}z$; // Euler离散化步骤 end

C. 将条件器嵌入SDE

在训练步骤(见图1)-I中,我们可以通过将数据点F及其扰动数据Ft之间的LM I嵌入到分数网络sθ中来调节噪声扰动过程。这是通过以下修改的训练分数匹配目标实现的:

在采样步骤(见图1-II),回顾一下,生成过程是反向SDE 6的迭代解。我们可以将所提出的调节过程适应到SDE 6中:

其中,分数网络使用LM I(G; G, ˆFt)进行引导,计算自未见引导图像G,使用单位权重,并使用朴素的Euler-Maruyama数值求解器(见算法1)来求解SDE。

实验与评估

在本节中,我们将展示所提出方法的特点:(1)我们提出的零样本无监督学习方法在零样本和少样本监督轨道上超过了基于GAN的跨模态图像翻译模型。(2)与最先进的扩散方法相比,我们的方法实现了高跨模态图像翻译保真度。(3)LM I引导的扩散实现了实际应用中的跨模态图像翻译的语义一致性。

A. 评估数据集

我们使用了三个涵盖不同跨模态图像翻译任务的公共数据集。图5显示了从三个不同数据集中收集的六个样本:(1)Gold Atlas数据集包括19名男性患者的CT和T1加权(T1w)和T2加权(T2w)磁共振成像(MRI)数据。成像对象是盆腔区域。所有的CT图像都已变形配准到相应的MRI[80]。数据集收集自三个不同的站点[81]。我们使用SimpleITK软件包将所有数据集重新采样到统一的体素大小(0.875mm × 0.875 mm × 3mm),并选择每15mm间隔的切片来构建训练集(来自15名患者的993对CT-MR切片)和测试集(来自4名患者的227对CT-MR切片)。(2)公开可用的CuRIOUS数据集包括22名低级别胶质瘤患者[82]。原始数据集包括T1w和FLAIR MRI扫描对,以及未配准的超声扫描。所有的图像都是在常规临床检查中收集的。原始扫描已被重新采样到256 × 256 × 288体素,各向同性体素大小为0.5mm^3[83]。我们选择T1w和FLAIR MRI扫描对来构建我们的跨模态图像翻译任务。所有的体积对都被重新采样到128 × 128 × 288体素,间距大小为1.0mm × 1.0mm × 0.5mm的SimpleITK软件包。结果,每5mm从原始体素中挑选出1168对FLAIR-T1w切片来生成训练集(来自17名受试者的952对)和测试集(来自5名受试者的216对)。(3)IXI数据集包括来自正常受试者的600张预对齐图像[84]。完整的数据集包括五种不同的模态:T1w、T2w、PD加权、磁共振血管造影(MRA)和弥散加权MRI。我们执行PD-T1w模态翻译任务。使用IXI数据集的一个子集生成了300个切片的训练集(来自100名受试者)和75个切片的测试集(来自25名受试者)。此外,我们利用100名训练和25名测试受试者的所有切片来训练和评估MIDiffusion模型的3D版本,从而展示了其在3D零样本学习基础的跨模态分割中下游应用。

B. 基线

我们选择了两种代表性的基于GAN的图像翻译方法和两种最先进的基于扩散的方法作为基线进行比较。这些包括少样本和零样本学习基础的翻译模型。在本次实验中,将允许少样本学习基础的方法看到完整的目标域数据集和一小组18个切片(对于Gold Atlas数据集约为2%,对于CuRIOUS数据集为6%,对于IXI数据集为11%)的源域数据集,这些数据集没有用于训练或测试。然而,我们提出的方法只会看到目标域中的数据。首先,我们将我们的零样本训练MIDiffusion(无监督)与少样本学习基础的CycleGAN翻译模型[85]进行比较。第二个基线是基于GAN反演的方法(无监督)。允许StyleGAN2ADA[86]看到目标域训练数据。通过在训练的StyleGAN2-ADA[63]的潜在空间中进行1000步优化来执行域外引导生成。在生成步骤中引入了额外的网络进行反演。两个基于扩散的基线是EGSDE[32](监督)和SDEdit(无监督)[20]。EGSDE(监督)是一种成对图像翻译方法,它利用在源和目标域上预训练的能量函数来指导预训练的随机微分方程(SDE)的推理过程。EGSDE需要根据预训练的扩散模型从DDPM[30]进行额外训练。SDEdit也是一种基于扩散模型的翻译方法,但它使用分布扰动引导。SDEdit的性能对扰动时间点t的选择非常敏感,因此我们使用了两个不同的扰动时间点,t1 = 0.5和t2 = 0.2,以便进行更全面的比较。只要可能,我们就使用论文中提供的默认训练设置作为所有基线。实验基于我们实验环境中公开可用的开源代码实现。我们的网络结构与[20]中使用的类似UNet的分数匹配网络相同。

C. 定量性能

我们根据六个指标评估不同方法,包括四个图像质量度量:SSIM(结构相似性指数度量,越高越好)、GMSD(梯度幅度相似性偏差)[87]、PSNR(峰值信噪比)、MSE(均方误差)和两个统计相似性度量:FID(Fréchet Inception Distance)[88]和MI(互信息)。我们使用SSIM和GMSD[87]来评估翻译图像中的结构相似性。这些指标确保翻译保持结构完整性,这对于保持不同成像模态之间的一致性至关重要。翻译保真度(定义2)预计在比较翻译结果和引导G以及目标F时。这种保真度通过以下指数定量测量:SSIM-Src(, G) ↑, GMSD-Src(, G) ↓, SSIM-Tar(, F) ↑, GMSD-Tar(, F) ↓。FID和MI用于评估不同方法之间和F的翻译真实性(定义1)的统计相似性。

  1. 与少样本监督训练的比较:我们将我们的方法与监督训练的少样本CycleGAN(基于GAN的)和EGSDE(基于分数的)方法在每个数据集上进行了比较。关于翻译误差(通过MSE(对数刻度)和PSNR测量),所提出的零样本训练MIDiffusion模型在GoldAtlas(MR → CT,源的2%训练数据,100%目标训练数据)和CuRIOUS(T1w ↔ FLAIR 6%源训练数据,100%目标训练数据)以及IXI(T1w ↔ PDw,11%训练数据,100%目标训练数据)数据集上超过了少样本训练的CycleGAN和EGSDE模型。请注意,尽管三个数据集中源数据集的百分比各不相同,但用于训练少样本模型的实际图像数量保持不变。图4中显示的GMSD度量清楚地说明了在CuRIOUS数据集T1→Flair任务中,少样本训练的EGSDE和我们零样本训练的MIDiffusion之间的显著性能差异。MIDiffusion的翻译保真度通过几个指标的表现得到了强调:SSIM-Src(, G) ↑, SSIM-Tar(, F) ↑, GMSD-Src(, G) ↓, 和 GMSD-Tar(, F) ↓,如图4所示。最佳的翻译保真度表明了SSIM对于源(SSIM-Src)和目标(SSIM-Tar)的值较高,以及GMSD对于源(GMSD-Src)和目标(GMSD-Tar)的值较低。我们的方法在几个指标上一致地超过了CycleGAN和EGSDE方法。值得注意的是,CycleGAN在CuRIOUS数据集的T1→Flair任务中显示出SSIM-Src和SSIM-Tar的显著不一致性,表明其无法准确从源到目标图像进行翻译,即使是有监督信息。相比之下,当使用GMSD作为保真度的度量时,这种差异性较小,因为GMSD更关注结构相似性。

70916add8eb44f3e555c869c3c4fc5c3.jpeg

  1. 与零样本无监督训练的比较:如图4所示,我们的方法在SSIM、GMSD和MSE方面的表现优于其他零样本训练方法(StyleGAN和SDEdit),这意味着MIDiffusion生成的数据在源和目标域方面实现了更高的语义保真度。一个例外是GoldAtlas CT→MR任务,MIDiffusion未能与其他基线竞争。尽管根据定性结果(见图6),所有评估的模型在CT ↔ MR翻译任务上的表现都不佳,但结果表明,当两种模态之间的统计一致性存在显著差异时(例如,盆腔CT与MR),使用MIDiffusion是不可行的。这在讨论部分VI中进一步讨论,我们提供了详细的定量分析。我们的模型在PSNR和MI方面也优于其他方法。这意味着我们的方法在成对比较中显示出与目标数据的翻译真实性1。在生成数据集和目标数据集之间的相似性方面,我们看到SDEdit总体上具有较低的FID分数。然而,这并不意味着SDEdit优于其他方法。相反,当考虑到我们的生成目标是保真度翻译时,SDEdit在两个扰动时间点t1 = 0.5和t2 = 0.2的保真度翻译中都失败了,表现出相对较高的GMSD和较低的SSIM。因此,SDEdit的翻译结果在这项任务中表现较差。相比之下,所提出的方法在真实性方面取得了较好的效果(除了SDEdit之外的最低FID分数),同时保持了来自引导到目标的语义含义(较高的SSIM,较低的MSE)。因此,除了GoldAtlas CT→MR任务外,跨模态图像翻译方法中保真度最高的是MIDiffusion。这种例外是预期的,因为两种模态之间的CSML得分(10.168)较高。

fb0609c84569ffdf3e65f9a4c06c82e2.jpeg

D. 定性性能

图6显示了不同方法在测试数据集上的翻译结果及其放大细节,以及地面真实情况(左列)。总的来说,所提出的方法在比较的方法中实现了最佳的翻译保真度。与基线模型相比,MIDiffusion的翻译结果在解剖结构上更忠实地表示。SDEdit和StyleGAN无法翻译具有相同特征的源图像。具体来说,扰动时间点为t1 = 0.5的SDEdit产生了完全不同的结果;然而,扰动时间点为t1 = 0.2的结果失去了保真度。SDEdit在确定最佳扰动时间点方面的困难限制了其在涉及跨模态图像翻译的任务中的实用性。此外,少样本训练的CycleGAN和EGSDE在CuRIOUS和GoldAtlas数据集上用不足的源数据(18张图像)训练时,明显表现不如零样本训练的MIDiffusion模型。EGSDE虽然生成了属于目标模态的结果,但完全失去了解剖特征。这表明EGSDE不适合少样本跨模态图像翻译,因为它的能量函数无法在翻译结果中保持解剖特征。这一观察结果与图4中显示的定量结果一致。图7展示了在IXI数据集上评估的特征空间中的翻译质量,CycleGAN、StyleGAN、SDEdit、EGSDE和MIDiffusion的翻译前后。目标特征以三角形标记(蓝色)表示,源特征以星形标记(黄色)表示,翻译结果以点标记(绿色)显示。特征由预训练的ResNet18模型合成,集成在官方TorchVision包中。所有源、目标和翻译图像都由ResNet模型处理以生成1000维的特征向量。这些在特征流形上的高维向量通过使用t-SNE方法投影到2D平面上。最初,源和目标数据特征的分布彼此不同。翻译结果预计会与目标域数据集很好地对齐。我们可以看到,与其他模型相比,MIDiffusion在翻译(绿色)和目标(蓝色)特征之间实现了最佳的对齐。这强调了MIDiffusion在零样本学习基础的数据翻译任务中的有效性。总的来说,MIDiffusion在解剖一致性和外观相似性方面优于基线方法。

6a085799d6093dbd5906274a7a771a19.jpeg

E. 应用示例:3D图像分割

在本节中,我们展示了跨模态图像翻译在3D图像分割中的实际应用。我们将所提出的MIDiffusion模型扩展到三维,并实现了SDEdit的3D版本作为基线方法。任务涉及将以前未见过的T2加权(T2w)和质子密度加权(PDw)图像翻译成T1加权(T1w)图像,以便使用3D分割工具对模拟的T1加权图像进行分割。我们使用了公开可用的FreeSurfer[89]分割工具包,并在不同方法获得的翻译结果上执行分割。我们计算了基于25名受试者的30个解剖标签的Dice得分,并在图8中呈现。

b8c4990e962717056dc462b8d6da295f.jpeg

图9展示了一个随机选择的测试样本的定性分割结果(在附录VIII-B中提供了更多示例,这些示例基于测试集中一名患者的3D翻译结果)。我们的方法提供了更好的翻译目标T1w的相似性,保留了原始模态的解剖特征,无论是T2w还是PDw图像。3D翻译模型还产生了良好的切片一致性。虽然SDEdit在T1w领域生成了图像,但原始域中的解剖特征没有保留,因此不适合下游分析。生成的解剖特征之间的相关性较差,导致分割工具无法识别目标脑结构。这些观察结果与图8中提供的定量评估一致。我们提出的方法成功地实现了零样本学习翻译和保真度,表明我们的方法在解决类似的机器学习数据稀缺性挑战时可能成功。

F. 消融分析

我们将MIDiffusion与SDEdit进行了比较,后者没有我们添加的统计引导(见图2),用于消融分析。两个模型在相同条件下进行了测试,以确保公平比较。我们的结果表明,统计引导显著有助于MIDiffusion的改进性能。这一点从优越的定量分数(图4)、改进的图像翻译质量(图6和7)以及增强的3D实际应用结果(图8和9)中可以看出,与SDEdit相比。差异验证了MIDiffusion中引入的统计引导对于有效的跨模态图像翻译的重要性。

讨论

我们的实验为利用统计信息进行无监督零样本学习跨模态图像翻译任务的有效性提供了有力的证据。所提出的方法依赖于条件扩散模型,该模型联合学习目标数据分布的统计语义特征和分数函数。这种统计特征的新应用用于扩散引导,不依赖于训练辅助模型,如EGSDE[32],这些模型通常需要从不同模态的数据中学习引导信号。与通常需要从不同模态的数据中学习引导信号的EGSDE[32]不同,翻译是由假设驱动的,即对于同一对象通过不同模态测量,统计语义特征应该在不同模态之间保持一致,即使测量结果看起来不同。因此,我们可以使用所提出的互信息算法在统计空间中提取这些一致的特征,并利用它们来调节扩散过程,以生成目标模态中的图像。虽然上述假设对于许多现实的跨模态翻译任务是正确的,但需要注意的是,在某些情况下,目标模态和原始域在统计特征上可能没有相似的语义特征。在这种情况下,翻译过程的性能可能是次优的。当检查GoldAtlas数据集(CSLM I: 10.168)时,这一问题变得明显,其中两种模态之间的统计特征显示出与CuRIOUS(CSLM I: 3.628)和IXI(CSLM I: 6.318)数据集相比的显著差异。这些统计特征差异是使用所提出的CSLM I(方程8)量化的,可以用来评估使用MIDiffusion进行特定模态翻译任务的可行性。作为一种解决方案,对于高CSLM I数据集(例如,CT与MR),可能需要引入弱监督,无论是通过非线性预处理还是通过采用一次或少次技术,以明确建立有效翻译所需的统计连接。MIDiffusion的一个主要限制是,它需要迭代步骤来求解SDE,这需要几十秒来翻译单个图像在Nvidia Tesla V100 GPU上。尽管我们提出的局部互信息算子允许在GPU上并行计算迭代互信息,但它仍然比EGSDE的单个去噪步骤0.76秒慢0.82秒,比SDEdit慢0.31秒。因此,有效地减少采样步骤的数量,同时不牺牲翻译保真度,将对未来的工作有意义。最近的一些工作[90]在这方面表明,使用一致性模型来加速扩散是可行的。为了展示MIDiffusion的实际应用,我们将框架扩展到3D,并在零样本学习基础的跨模态图像翻译任务中使用它,重点关注图像分割(如第V-E节所示)。这个特定的例子说明了引言中提出的场景。它突出了利用扩散模型在图像翻译问题中的显著潜力,特别是在零样本学习方法中,这极大地促进了像分割这样的下游任务。一个有趣的扩展将是探索使用所提出的框架可以解决的其他潜在应用,如跨模态图像配准、基于零样本学习的目标检测和不平衡数据集的数据增强。此外,对扩散模型在图像翻译中的样本外预测能力进行进一步调查是必要的。提高性能的一个潜在途径是将更多种类的空间变换引入训练数据集,这可能有助于减少归纳偏差,从而改善对未见数据的预测。这些领域为进一步研究提供了有希望的途径,并可能从所提出的框架的能力中受益。

67a67414ae445cde37cb5aea0f14f15e.jpeg

结论

在这项研究中,我们探讨了在源域训练数据集不可用的情况下进行跨模态翻译的挑战。这突出了探索基于零样本学习的图像翻译任务的必要性。为了解决这个问题,我们提出了一种新颖的局部互信息引导扩散模型,称为MIDiffusion,用于跨模态图像翻译。与当前的循环一致性训练不同,MIDiffusion不需要在训练中看到源数据集。与需要在测试步骤中进行迭代优化的GAN反演方法不同,MIDiffusion不需要在线优化。我们的方法引入了一种新的调节器,实现了高保真度的零样本图像翻译。这一特性与需要训练额外模型以对扩散过程进行条件引导的监督引导不同。由于MIDiffusion的LM I引导信号,所提出的扩散模型在零样本翻译保真度方面比其他扩散模型更鲁棒。

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。

5b386b63c3f3f182dd1a23c768a6d42a.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值