医学生成模型MedSyn:文字引导,AI“画”出高保真CT图像

本文分享最近 arxiv 论文 MedSyn: Text-guided Anatomy-aware Synthesis of High-Fidelity 3D CT Images,介绍通过临床诊断报告来生成对应的 3D 肺部 CT 医学图像。

具体信息如下:

  • 论文链接:https://arxiv.org/abs/2310.03559

01.文本生成3D医学图像的意义

去噪扩散概率模型 (DDPM),由于其在训练期间的稳定性和卓越的生成质量,在计算机视觉和医学成像中都已经成为强大的工具。

最先进的图像生成工具,如IMAGEN和隐空间扩散模型 (LDMs)这样的方法已经展示了基于文本提示的2D跨模态生成模型的潜力,但目前还没有已知的文本引导的医学成像体积图像生成技术。将这种方法扩展到3D带来了挑战,包括高内存需求和保留关键的解剖细节。本文旨在解决这些挑战。

下图是一些文字生成肺部3D CT图像的结果:

MedSyn_医学成像

02.摘要

这篇文章介绍了一种创新的方法,通过文本信息引导来产生高质量的3D肺CT图像。尽管基于扩散的生成模型在医学成像中越来越受欢迎,但当前的最先进方法仅限于低分辨率输出,并未充分利用放射学报告的丰富信息。放射学报告可以通过提供额外的引导和提供对图像合成的精细控制来增强生成过程。然而,将文本引导的生成扩展到高分辨率的3D图像带来了显著的内存和解剖细节保存挑战。

为了解决内存问题,我们引入了一个使用修改过的UNet架构的分层方案。我们首先根据文本合成低分辨率图像,作为后续完整体积数据生成器的基础。为了确保生成样本的解剖可能性,我们在CT图像中生成血管、气道和肺叶分割掩码来提供进一步的引导。该模型展示了使用文本输入和分割任务生成合成图像的能力。

比较评估的结果表明,与基于GAN和扩散技术的最先进模型相比,我们的方法在准确保留如裂缝线、气道和血管结构等关键解剖特征方面表现优越。这一创新引入了新的可能性。本研究关注两个主要目标:(1)基于文本提示和解剖部分创建图像的方法的开发,(2)基于解剖元素生成新图像的能力。图像生成的进步可以应用于增强许多下游任务。

模型图如下:

MedSyn_3D_02

03.实验对比

本节对一些常用的生成模型和MedSyn进行了全面评估。我们首先描述本实验中使用的数据集。

然后,将MedSyn与最先进的GANs和扩散模型进行比较,包括WGAN、α-GAN、HA-GA和Medical Diffusion。

最后,为了评估我们方法的有效性,我们进行了广泛的比较和分析,从定性和定量两方面。

实验对比如下:

MedSyn_3D_03

04.解刨学结构条件生成

在本节中, MedSyn展示了条件生成的应用。在这项研究中,我们的目标是在解剖结构可用时生成数据,例如我们可以模拟肺叶、气道或血管的结构。 

基于这些先验信息,我们能够通过我们的模型提供体积CT扫描。在图6中,我们分别在输入通道中固定肺叶、血管或气道,这些都是从真实数据中分割出来的。

然后,我们用这些解剖结构生成肺部,它与这些解剖先验信息显示出很好的一致性,效果如下:

MedSyn_人工智能_04