MedSyn

最新推荐文章于 2025-04-02 23:31:48 发布

Matthew zz

最新推荐文章于 2025-04-02 23:31:48 发布

阅读量58

点赞数

文章标签：计算机视觉人工智能

医学生成模型MedSyn：文字引导，AI“画”出高保真CT图像

本文分享最近 arxiv 论文 MedSyn: Text-guided Anatomy-aware Synthesis of High-Fidelity 3D CT Images，介绍通过临床诊断报告来生成对应的 3D 肺部 CT 医学图像。

具体信息如下：

论文链接：https://arxiv.org/abs/2310.03559

01.文本生成3D医学图像的意义

去噪扩散概率模型 (DDPM)，由于其在训练期间的稳定性和卓越的生成质量，在计算机视觉和医学成像中都已经成为强大的工具。

最先进的图像生成工具，如IMAGEN和隐空间扩散模型 (LDMs)这样的方法已经展示了基于文本提示的2D跨模态生成模型的潜力，但目前还没有已知的文本引导的医学成像体积图像生成技术。将这种方法扩展到3D带来了挑战，包括高内存需求和保留关键的解剖细节。本文旨在解决这些挑战。

下图是一些文字生成肺部3D CT图像的结果：

MedSyn_医学成像

02.摘要

这篇文章介绍了一种创新的方法，通过文本信息引导来产生高质量的3D肺CT图像。尽管基于扩散的生成模型在医学成像中越来越受欢迎，但当前的最先进方法仅限于低分辨率输出，并未充分利用放射学报告的丰富信息。放射学报告可以通过提供额外的引导和提供对图像合成的精细控制来增强生成过程。然而，将文本引导的生成扩展到高分辨率的3D图像带来了显著的内存和解剖细节保存挑战。

为了解决内存问题，我们引入了一个使用修改过的UNet架构的分层方案。我们首先根据文本合成低分辨率图像，作为后续完整体积数据生成器的基础。为了确保生成样本的解剖可能性，我们在CT图像中生成血管、气道和肺叶分割掩码来提供进一步的引导。该模型展示了使用文本输入和分割任务生成合成图像的能力。

比较评估的结果表明，与基于GAN和扩散技术的最先进模型相比，我们的方法在准确保留如裂缝线、气道和血管结构等关键解剖特征方面表现优越。这一创新引入了新的可能性。本研究关注两个主要目标：(1)基于文本提示和解剖部分创建图像的方法的开发，(2)基于解剖元素生成新图像的能力。图像生成的进步可以应用于增强许多下游任务。

模型图如下：

MedSyn_3D_02