翻译A DOMAIN TRANSLATION FRAMEWORK WITH AN ADVERSARIALDENOISING DIFFUSION MODEL TO GENERATE SYNTHETICD

最新推荐文章于 2025-03-04 16:53:16 发布

吠月啊

最新推荐文章于 2025-03-04 16:53:16 发布

阅读量207

点赞数 1

文章标签：人工智能机器学习计算机视觉生成对抗网络

原文链接：https://arxiv.org/abs/2403.04612

版权

一种具有对抗性去噪扩散模型的领域翻译框架，用

于生成超声心动图图像的合成数据集

摘要：目前，医学图像领域翻译操作在研究人员和临床医生中显示出高需求。这项任务除了其他功能外，还允许生成具有足够高质量的新医学图像，使其具有临床意义。深度学习（DL ）架构，尤其是深度生成模型，被广泛用于从一个领域到另一个领域的图像生成和翻译。提出的框架依赖于对抗性去噪扩散模型（DDM ）来合成超声心动图图像并执行领域翻译。

与生成对抗网络（ GANs ）相反， DDM 能够生成具有大多样性的高质量图像样本。如果将 DDM 与 GAN 结合使用，这种生成新数据的能力将以更快的采样时间完成。在这项工作中，我们训练了一个对抗性 DDM ，它与 GAN 结合使用，以学习反向去噪过程，依赖于指导图像，确保每个超声心动图图像的相关解剖结构得以保留并在生成的图像样本上表示。对于几种领域翻译操作，结果验证了这种生成模型能够合成高质量的图像样本：MSE ： 11.50 ± 3.69 ， PSNR （ dB ）： 30.48 ± 0.09 ， SSIM： 0.47 ± 0.03 。所提出的方法显示出高度的泛化能力，引入了一个框架来创建适合临床使用的超声心动图图像。

关键词：深度学习，生成模型，领域翻译，去噪扩散模型，超声心动图

1 引言

超声心动图是将超声成像技术应用于心脏的一种检查方法。这种成像模式因其众多优势而成为心脏检查最常用的方法：相对于计算机断层扫描（CT）和磁共振成像（ MRI ），超声心动图的成本相对较低，设备便携；此外，超声心动图不使用任何电离辐射，因此对患者无害。

超声心动图的另一大优势在于其时间分辨率。在研究心脏运动时，这种成像方式仍然具有其他成像方式无法比拟的优势。由于在临床实践和工作流程中的广泛应用，超声心动图成为检测病理病例以及评估心脏解剖结构和功能的首选方法。

近年来，为了简化治疗手段以及节约诊断时间便于服务更多的病人，深度学习在医疗保健领域的应用不断证明其效用 [Gandhi and Gandhi, 2022]。除了上述优势外，深度学习还帮助临床医生更快地做出最终诊断，同时不降低诊断的信心水平 [Aljuaid and Anwar, 2022]，甚至达到了人类水平的性能 [Scheetz et al., 2021] 。

事实上，深度学习在医学成像领域有着广泛而多样的应用。图像分类、解剖结构分割以及基于目标区域的检测等都是这些数学方法最常见的用途。然而，近年来，图像生成 [DuMont Schütte et al., 2021] 和图像领域翻译 / 适应 [Wang et al., 2019] 等应用也逐渐崭露头角，这些应用有助于扩展医学成像领域的可用性，尤其是在收集足够且多样化的数据集方面面临的挑战日益增加的情况下。

深度学习算法从数据中学习函数和模式，这些数据可以是时间序列或图像。尽管超声心动图作为一种广泛使用的心脏成像模式，但由于当前匿名化和隐私法规的限制，获取医学图像数据变得更加复杂。因此，目前急需医学数据来训练深度学习算法。

多项研究，包括 [Thorstensen et al., 2010] 和 [Uzunova et al., 2020] ，表明合成图像对深度学习算法的研发具有积极影响。将合成数据添加到由真实图像组成的数据集中，可以增加医学图像数据集的多样性，为解决数据稀缺问题提供了方案，这是医学深度学习领域中一个非常现实的现象。

使用深度生成模型生成合成数据 [Ruthotto and Haber, 2021] 为解决这一问题提供了方案。深度生成模型是训练用于合成数据的深度学习架构的一个子集。在这类神经网络中，当前的方法包括变分自编码器（VAEs ）和生成对抗网络（ GANs ）。最近，去噪扩散模型（DDMs ）也被归入这一类别。

生成对抗网络（GAN ）是一种基于生成器和判别器的生成模型，其中生成器试图通过最小化合成图像与真实图像之间的差异来欺骗判别器。与所有深度生成模型类似，扩散模型也试图通过近似学习来代表某个训练数据集的概率分布函数。特别是对于这些模型而言，使它们与其他模型区别开来的是，它们的生成过程基于通过添加高斯噪声来破坏输入图像，在足够多的步骤中进行，然后学习如何反转这些步骤 [Ho et al., 2020]。通过这种方式，可以通过对初始随机噪声图像进行去噪来生成合成图像。这些模型提供了高保真度/ 质量的合成样本。

创建一个数据增强工具来生成逼真的超声心动图图像是非常必要的，因为它为解决医学数据稀缺问题提供了解决方案。随着深度学习在医学成像领域的应用越来越广泛，对大量、多样化的数据集的需求也日益增加。然而，由于隐私和伦理等方面的限制，真实医学图像的获取并不容易。因此，能够生成高质量合成医学图像的技术对于推动医学成像领域的发展具有重要意义。

1.1 技术现状

目前有多种图像合成方法在实践中得到应用，选择哪种方法取决于要生成的图像类型。在医学图像合成方面，成像模式的选择对用于生成这些图像的所选模型具有重大影响。

最近的大部分成果和方法都采用深度学习模型来进行领域转换，其中生成对抗网络（GANs ）因其能够跨多种医学成像模式生成高质量、高逼真度的样本而被广泛使用，这些医学成像模式包括磁共振成像（MRI ） [Li et al., 2019] - [Abbasi-Sureshjani et al., 2020]、计算机断层扫描（ CT ） [Selim et al., 2020] 和超声成像，尤其是超声心动图 [Tiago et al., 2022]

- [Gilbert et al., 2021] ，并且具有快速的采样时间。

在 GAN 中，生成器试图合成与目标域匹配的样本，该目标域具有固有的数据分布函数。判别器则将这些合成的图像与训练数据集中的图像进行比较，以区分它们。

与其他成像模式相比，超声心动图在采集和图像重建过程中涉及的物理原理使其更具挑战性。特别是 [Tiago et al., 2022] 和 [Gilbert et al., 2021] 分别专注于生成 3D 和 2D 超声心动图。这种类型的医学图像具有固有的特性，这些特性强烈影响最终获得的图像，即斑点模式、扫描仪功能特性、患者解剖结构和超声医师的技能。尽管如此，这两项工作都使用 GAN 来合成图像，但前者采用有监督的 GAN 训练，而后者采用无监督的方法。

然而，GAN 在能够生成的图像类型上缺乏多样性，这往往导致判别器在训练过程中过早收敛或出现模式崩溃现象 [Isola et al., 2017]。当训练 GAN 时，这种现象非常普遍，会导致模型生成的图像样本质量较差，且几乎没有或完全没有变化。

相比之下，扩散模型（Diffusion Models ，简称 DDMs ）能够在不牺牲高质量的前提下，生成具有大量可变性的样本 [Dhariwal and Nichol, 2021]。这些模型最初由 [Sohl-Dickstein et al.] 提出，旨在从训练数据集中采样数据时节省时间，而无需学习大量训练步骤和参数。这些模型在足够多的时间步内破坏输入数据的分布，然后使用神经网络学习如何逆转这个过程，重新构建数据。

近年来，[Ho et al., 2020] 和 [Song et al., 2021a] 尝试证明扩散模型与基于分数的生成模型之间的等价关系，后者基于数据的可能性为概率分布分配一个分数 [Song and Ermon, 2020] 。基于原始统计物理理论的扩散模型训练工作，在合成图像的可变性 [Song et al., 2021b] 和样本质量方面都取得了良好结果。 [Dhariwal and Nichol, 2021] 证明，在生成图像质量方面，扩散模型能够超越 GAN 。此外， [Nichol and Dhariwal, 2021] 还表明，当这些模型在包含多种图像的数据集上进行训练时，能够生成具有高可能性值的图像，这增加了训练数据集概率分布的复杂性。

为了解决扩散模型固有的较长采样时间问题，[Nichol and Dhariwal, 2021] 以及 [Song et al., 2020] 在加速正向扩散过程方面做出了贡献，通过减少步骤在输入图像中添加噪声。这样降低了学习反向扩散过程的复杂性，并允许以更快的方式对图像样本进行去噪，同时不损害图像质量。

扩散模型在医学图像生成方面的应用尚未得到充分探索，这主要是由于其较长的采样时间 [Ho et al., 2020] 。最近， [Xiao et al., 2021] 提出将扩散模型与 GAN 相结合，试图利用这两种生成模型的优势并克服它们的不足。该团队提出了一个去噪扩散 GAN ，使用条件 GAN 在反向扩散过程中模拟更大的去噪步骤。

在条件扩散过程的学习之后，[Özbey et al., 2023] 提出了一个对抗性扩散模型 SynDiff ，在训练过程中使用来自源域的图像来指导去噪扩散过程。该团队应用该模型在大脑 MRI T1 和 T2 加权图像之间进行医学图像转换。他们能够在反向扩散过程中以另一个域的图像为指导，生成每个域的图像。

虽然扩散模型在医学图像生成方面仍有许多未解决的问题和挑战，但随着技术的不断进步和研究的深入，相信未来会有更多的突破和应用。

在将扩散模型应用到更多维度上，[Kim and Ye, 2022] 在扩散模块中添加了一个变形模块，并尝试生成时间序列体积图像（3D + 时间）的心脏 MRI 图像。

在本文提出的工作中，我们应用这种深度生成模型来生成超声心动图图像。为了保持生成样本的多样性，同时减少采样时间且不影响图像质量，我们提出了一种基于扩散模型和 GAN 的数据增强工具。所提出的对抗性扩散模型生成合成超声心动图图像，并使用 GAN 学习去噪过程，其性能受到心脏解剖掩模的制约。通过这种方式，这些灰度级掩模指导反向扩散过程，以保留合成图像上的解剖信息。据我们所知，之前没有任何工作使用扩散模型生成此类图像时取得了可重复的结果。

我们的方法不仅提高了生成图像的质量和多样性，还显著缩短了采样时间，使得这种技术在医学图像处理领域更具实用性和效率。我们相信，随着技术的进一步发展和优化，扩散模型在医学图像处理领域的应用将更加广泛，为医疗诊断和

治疗提供更多可能性。

1.2 贡献总结

我们提出了一种数据增强方法，使用心脏的解剖掩模在图像合成过程中指导模型，从而合成生成超声心动图图像。这些图像可用于医学图像领域的研究目的，例如深度学习分析任务的开发。

总的来说，相较于现有技术，本方法的主要贡献如下：

1. 训练了一个基于扩散模型和 GAN 的对抗性扩散模型，以生成合成超声心动图图像。

2. 将心脏的解剖掩模与合成生成的超声心动图图像样本相关联。这样，我们解决了公开可用的带标签超声心动图图像数据集缺乏的问题。

3. 使用所提出的方法进行图像域转换，生成属于不同领域（如不同扫描仪）的超声心动图数据集。

这种方法不仅提高了超声心动图图像生成的效率和准确性，还拓宽了其在医学研究和临床实践中的应用范围。我们期待这种数据增强方法能为未来的医学图像处理和分析任务提供有力支持。

2 方法

图 1 展示了所提出的方法。以下各节将对其进行更详细的描述。第 2 节 A 部分介绍了所有的数据收集和预处理步骤，第 2 节 B 部分详细描述了所提出的对抗性扩散模型背后的扩散模型和 GAN 的工作原理。第 2 节 C 部分聚焦于不同图像数据集的创建，而第 2 节 D 部分则描述了本研究中考虑的图像质量比较指标。

标题图 1 使用扩散模型和生成对抗网络生成合成超声心动图图像的提出流程。正向扩散过程：在此阶段，扩散模型模块逐步向属于训练数据集且分布为 q(x) 的训练图像 x0 添加高斯噪声，经过 t 个时间步后获得噪声图像 xt。此过程创建了一个具有高斯分布的潜在空间 z。反向扩散过程则依赖于生成对抗网络来学习反向分布 pθ(xt)，并以条件方式生成合成图像 x'0。

2.1 数据收集

所提出的对抗性扩散模型是在一个已有的超声心动图图像数据集上进行训练的。该数据集是 [Leclerc 等人， 2019] 提出的 CAMUS 数据集，包含 2D 心尖二腔和四腔图像，这些图像是在心动周期的舒张末期（ ED ）和收缩末期（ ES ）时获取的，且图像质量分为较差、良好和中等三个等级。所有图像均使用 GE Vivid E95 超声扫描仪采集。在我们的工作中，我们仅选择了所有图像质量等级的 ED 心尖四腔（ 4CH ）图像，共计 450 张，并将其大小调整为 256 x 256 像素。所有图像都附带有左心室（LV ）、心肌（ MYO ）和左心房（ LA ）的解剖掩模。数据集被划分为训练集和验证集，分别占总数据量的 90% 和 10%。

另外五个数据集被用于推理，以执行域转换。这些数据集均由 256 x 256 像素的心尖四腔图像组成，并包括与 CAMUS 数据集中考虑的相同结构的解剖掩模。表 1 总结了本工作中考虑的所有数据集。

首先，我们使用了 [Ouyang 等人， 2020] 提出的 EchoNet-Dynamic 数据集。该数据集包含一万多个带标签的超声心动图视频。对于生成合成超声心动图图像的任务，我们仅使用了超声心动图视频中的舒张末期（ED ）帧。与该数据集相关联的解剖掩模仅显示了左心室（LV ）区域。因此，我们为它们添加了心肌（ MYO ）和左心房（ LA ）区域。

表 1 用于此工作的数据集总结
数据集	来源	获取设备	标签	原始大小	最终大小	方式
CAMUS	Publicly available	GE Vivid E95	LA, LV, and MYO	Variable	6*256 x 256	DDM Training
Vscan	GE Healthcare	GE Vscan Extend	*	416 x 240		Inference(domain translation)
Vscan Air	GE Healthcare	GE Vscan Air	*	2040 x 1024		Inference(domain translation)
EchoNet	Publicly available	Multiple Philips and Siemens scanners	LV	112 x 112		Inference(domain translation)
2D + t	GE Healthcare	Multiple GE Vivid models (except E95)	*	1016 x 708		Inference(domain translation)
3D (spatial)	GE Healthcare	Multiple GE Vivid models (except E95)	*	Variable		Inference(domain translation)

第二个数据集由从不同 GE Vivid 超声扫描仪获取的 3D （三个空间维度）超声心动图图像中提取的 ED 帧组成。

我们还使用另外两种手持式 GE 超声扫描仪（ Vscan Extend 和 Vscan Air ）创建了另外两个数据集。前者是一款口袋大小的扫描仪，后者则使用无线探头对心脏进行成像，并在智能手机上显示图像。我们为第二、第三和第四个数据集创建了解剖标签。

第五个数据集包含从 2D + 时间（ 2D + t ）图像中提取的 ED 帧，这些图像均使用与 GE Vivid E95 不同的 GE Vivid 超声扫描仪获取。该数据集之前已由心脏病专家进行了标注。

2.2 对抗扩散模型的训练

扩散模型的数学原理最初由 [Sohl-Dickstein 等人 ] 提出。该团队表明，通过重构噪声图像来生成属于具有特定概率分布函数的某个数据集的样本是可能的。

去噪原理表明，这些生成模型提供的图像样本质量更高且变化更多，优于其他模型。

扩散模型本身基于大量步骤中应用的无条件扩散过程。然而，所提出的对抗性扩散模型以条件方式执行反向扩散过程。为了合成具有与训练数据集相似统计特性的图像样本，对抗模型使用来自第二个域的图像来引导，即条件化反向去噪算法。此外，我们的对抗性扩散模型学习了一个更快的反向扩散过程，该过程具有较大的步长，而不是多个小的去噪瞬间。

如图 1 所示，上一节描述的 CAMUS 数据集用于训练所提出的对抗性扩散模型。在训练的前向过程中，从训练数据集中以概率分布 q(x) 采样一个图像 x0 ，并在 T 个时间步内将高斯噪声添加到图像样本中。

此过程创建了一个具有预定义方差 βt 的马尔可夫链，将前向数据分布定义为： $q(x_t | x_{t-1}) = \mathcal{N}(x_t; \sqrt{1 - \beta_t} x_{t-1}, \beta_t I)$

然而，由于对抗性场景允许定义较大的步长，从而减少了需要学习的去噪步骤总数，前向过程可以重新写为：

$q(x_t | x_{t-k}) = \mathcal{N}(x_t; \sqrt{1 - \beta_t} x_{t-1}, \beta_t I)$

在 [Özbey et al., 2023] 定义的场景中， k 代表步长，并且 k 远大于 1。

另一方面，反向去噪过程也是一个由高斯分布近似的马尔可夫链，表示为 pθ(x0:T) ，其中 θ 是反向扩散概率分布的预测参数，这些参数由生成对抗网络（GAN ）估计得出 :

$p_\theta(x_{t-1} | x_t) = \mathcal{N}(x_{t-1}; \mu_\theta(x_t, t), \Sigma_\theta(\sigma_t^2, t))$

我们的对抗性扩散模型（DDM ）的训练过程旨在最小化条件 GAN 预测的概率分布 pθ 与原始训练分布 q(x) 之间的差异。

$\min_{\theta} L = \min_{\theta} \sum_{t \geq 1} \mathbb{E}_{q(x_t)} \left[ D\left( q(x_{t-k} | x_t) \parallel p_{\theta}(x_{t-k} | x_t) \right) \right]$

在这里，D 代表了这个损失函数中使用的 Kullback-Leibler 散度 [Ho 等人， 2020] 。

在所提出的架构中，x’0 是由 GAN 的生成器从潜在空间 z 中重建的，其中训练数据的特征信息被编码，并且遵循正态分布。

与 CAMUS 数据集中的超声心动图图像相关联的，有用于指导去噪过程的解剖掩膜。通过这种方式，当估计去噪分布 pθ 时， GAN 的性能会受到条件限制。

给定一个源图像 y 来指导反向扩散过程，生成器 G 尝试通过合成 x’t-k 来估计 pθ(xt-k|xt, y) ，使得 x’t-k pθ(xt-k|xt, y) 。

判别器 D(x’t-k, xt, t) 用于区分来自真实概率分布 q(x) 或预测分布 pθ(x) 的样本。

2.3 域转换 - 推理

域转换允许将图像从域 A 转换到域 B ，从而使得生成的（即域转换后的）图像具有与初始域中图像相似的特性 [Murez 等人，2018] 。这一操作通过分析初始数据集的概率分布，并迭代地将其与目标域的统计分布进行比较，来学习如何进行这样的转换 [Zhu 等人， 2020] 。

使用 CAMUS 数据集训练了对抗性扩散模型后，在推理阶段，将第二节 A 部分描述的数据集作为训练模型的输入。这些推理步骤使得能够执行域转换并创建具有与 CAMUS 相似特性的合成数据集。

2.4 图像质量比较指标

为了评估前面描述的各种合成数据集生成的图像样本的质量，我们计算并比较了多个图像质量指标。最常用的图像质量评估器是均方误差（MSE ），它量化了两幅图像之间的差异，通过逐像素测量来实现。如果合成图像与真实图像相似，那么这个误差值就会很低。峰值信噪（PSNR ）则考虑了原始图像的信号和生成样本中的噪声（即误差）。这个指标以分贝（dB ）为单位表示，当 PSNR 值在 30 dB 左右或更高时，通常被认为代表高质量的合成图像样本。上述两个指标都是基于像素的。为了使用一种与人类视觉系统更相似的方法来评估生成图像的质量，我们采用了结构相似性方法（SSIM ）。 SSIM 考虑了原始图像和生成图像之间保留和改变的边缘信息，以及纹理差异。这个指标的取值范围在 0 到 1 之间，值越高表示图像相似性越大。为了专门测量生成对抗网络（GANs ）的性能， Fréchet Inception Distance （ FID ）指标由 [Heusel 等人， 2017]提出，用于评估来自不同数据集的生成样本的质量。与前面描述的指标不同，FID 分数并不直接比较生成图像和真实图像，而是测量合成数据集和真实数据集统计分布之间的距离 [Skandarani 等人， 2023] 。该分数越低，表示数据集之间的差异越小。

3 结果

在第三节 A 部分，我们描述了所提出对抗扩散模型的训练参数和训练时间。而在第三节 B 部分，我们详细展示了域翻译操作的结果，以及所获得的图像质量比较指标。

3.1 对抗扩散模型训练

所提出的对抗扩散模型（DDM ）经过 500 个周期的训练，共包含四个扩散步骤。预测分布的方差上下限与 [Özbey 等人，2023] 中保持一致。该模型使用 PyTorch[Paszke 等人 ] 构建，并在配备四块 NVIDIA GeForce RTX 2080 GPU 的计算机上进行训练（多 GPU 训练）。训练过程大约耗时四十小时。

图 2 展示了验证步骤期间的训练结果概述。它显示了一个生成的样本，该样本具有与训练数据集中的图像相似的特性，同时保留了引导图像中的解剖信息。

标题图 2 对抗扩散模型训练结果。对于左侧显示的验证图像，右侧图像是由训练模型输出的生成样本。

3.2 域翻译 - 比较指标

在训练了对抗扩散模型之后，它被用于执行域翻译操作。对于先前创建的五个具有不同图像特性的数据集，我们生成了具有与 CAMUS 相似属性的合成数据集。图 3 展示了从每个域翻译操作中获得的最佳生成图像样本。

表 2 中的 FID 分数提供了整个数据集质量的概述，而不是比较单个图像样本。图 4 展示了在域翻译操作后，根据 PSNR值的最差、中值和最佳生成图像的示例。表 3 列出了每个属于推理数据集的测试图像，在生成样本与真实图像之间计算出的图像比较指标。

表 2 用于此工作的数据集总结

	Inference Datasets (before domain translation)Inference Datasets (before domain translation)					Synthetic Datasets (after domain translation)
	Vscan	Vscan Air	EchoNet	2D + t	3D (spatial)	Vscan	Vscan Air	EchoNet	2D + t	3D (spatial)
FID	279.53	332.73	260.42	189.55	61.08	70.18	81.22	60.17	79.28	50.87

标图 3 域翻译结果。每个推理数据集中生成的最佳图像。所有合成图像都展示了 CAMUS 数据集的特性，并保留了引导图像中的解剖信息（白色区域——左心室，深灰色区域——左心房，浅灰色区域——心肌）。题

4 讨论

基于深度扩散模型（DDM ）和生成对抗网络（ GAN ）的对抗扩散模型架构证明能够在快速采样时间内生成多种图像样本。实际上，训练这样一个复杂的模型所需的时间少于两天。这一结果是预期之中的，因为扩散模型的设计初衷就是学习较少的训练参数，与其他深度生成模型（如 GANs ）相比，这使得训练过程更加轻量级和快速，同时又不损害最终输出的质量。

表 3 域翻译操作的比较指标（平均值 ± 标准差）：我们计算了 5 个推理数据集中所有图像的均方误差（MSE）、峰值信噪比（PSNR，单位：dB）和结构相似性指数（SSIM）。最佳分数已高亮显示。
	Metrics
	MSE	PSNR (dB)	SSIM
Vscan	18.27 ± 9.26	30.09 ± 0.12	0.37 ± 0.01
Vscan Air	30.60 ± 7.79	28.94 ± 0.30	0.18 ± 0.03
EchoNet	22.39 ± 5.41	29.65 ± 0.20	0.31 ± 0.02
2D + t	11.95 ± 7.21	30.48 ± 0.13	0.40 ± 0.01
3D (spatial)	11.50 ± 3.69	30.48 ± 0.09	0.47 ± 0.03

图 4 在 PSNR 指标下，从每个推理数据集中选取的最差、中值和最佳合成图像中，最差的图像与最佳的图像并不完全相去甚远。标题

训练这样一个复杂的模型所需的时间少于两天。这一结果是预期之中的，因为与其他深度生成模型（如 GANs）相比，扩散模型的设计初衷就是学习较少的训练参数，这使得训练过程更加轻量级和快速，同时又不损害最终输出的质量。

生成的图像样本无需进行后处理操作，例如修复锥体形状 [Tiago et al., 2022] 或去除不需要的噪声，这与使用其他深度生成模型生成图像时经常需要进行的操作相反。扩散模型具有生成视觉上更准确的图像样本的优势，无需额外的后处理步骤 [Dhariwal and Nichol, 2021] 。与 GANs 不同，通过对抗性扩散模型生成的图像样本没有伪影。

我们从五个具有不同图像特性的超声心动图数据集中收集数据后，使用训练好的模型执行不同的图像域翻译任务。

在图像采集方面，使用 Vscan Air 获取的超声心动图扫描（图 3 ）与使用 GE Vivid E95 获取的图像存在显著差异，这主要是由于前者扫描仪使用的超声探头性质所致。表 2 中的结果支持了这一数据集特性，其中 Vscan Air 数据集的 FID 分数在所有推理数据集中最高，与 CAMUS 相比反映了这种差异。

从表 2 中可以看出，包含从 3D 扫描中提取的 2D 心尖四腔超声心动图图像（其中考虑了 3 个空间维度）的推理数据集（标记为 3D （空间））在所有五个推理数据集中与 CAMUS 数据集最为相似，因为其 FID 分数最低。随后的手动检查也证实了这两个数据集在视觉上最为相似。

本研究进行了五次域翻译操作。在每一次操作中，训练好的对抗扩散模型都为所考虑数据集中的每一张图像生成了一个对应的图像样本。然后，将生成的图像与真实图像进行比较，并计算 MSE 、 PSNR 和 SSIM （表 3 ）。

对于这三个指标，3D （空间）数据集都显示出了最佳结果。 PSNR 的高值表明原始推理图像中的信息在通过对抗扩散模型生成的合成图像中得到了保留和可见。

Vscan Air 数据集的 SSIM 值最低，这进一步证实了之前得出的结论，即该数据集图像属于与 CAMUS 图像域最不同的域。另一方面，接近 30 dB 的 PSNR 值反映了域翻译操作仍然能够合成具有有意义信息编码的图像。

经过域翻译操作后，我们为每个合成数据集计算了 FID 分数（表 2 ）。在所有合成数据集中， 3D （空间）合成数据集的FID 值仍然最低。域翻译操作前后获得的 FID 分数之间的差异表明了所提出的对抗扩散模型的泛化能力。表 2 显示，在所有数据集进行域翻译后，FID 分数都有显著下降。这些分数代表每个合成数据集的概率分布与 CAMUS 之间的差异更小。尽管在域翻译之前，2D + t 数据集的 FID 分数较小，但 EchoNet 合成数据集的 FID 分数现在比 2D + t 数据集更小。

训练好的对抗扩散模型能够生成多种样本，这些样本能够紧密描绘心尖四腔超声心动图图像中的左心房（LA ）、左心室（LV ）和心肌（ MYO ）（图 4 ）。从 PSNR 角度来看，被认为是最差的图像仍然能够展示这些结构，并且与最佳图像并不完全偏离。

本节所描述和讨论的结果支持了最初的假设，即扩散模型更轻量、训练速度更快，并且能够生成高质量的图像样本。通过使用生成对抗网络（GAN ）学习反向扩散过程来创建对抗扩散模型，其优势在于生成图像时采样时间较短。所开发的法可用于生成超声心动图图像样本的合成数据集，并改善低分辨率图像的质量。通过这种方式，对抗扩散模型成为生成属于不同图像域图像的资源，有助于开发在不同成像扫描仪/ 供应商之间表现同样出色的深度学习模型。

据我们所知，扩散模型尚未用于生成具有临床意义的超声心动图图像，也未用于在差异显著的医学图像数据集之间进行域翻译操作。我们的工作证明了这些任务是可能的，而且生成的超声心动图图像质量高，并包含有意义的解剖信息，这是因为我们使用了解剖掩码来指导反向扩散过程。在未来，我们将进一步探讨在对抗学习过程中使用不同类型引导图像的影响。同时，通过与临床终端用户的紧密合作，我们还将评估合成图像在临床场景中的应用效果。