Abstract
背景:
医学成像任务,如分类或分割,需要大量不同的图像数据集。
挑战:
合成图像的真实性和多样性,同时保持数据的不可识别性,评估基于合成数据训练的模型的性能和通用性,以及高计算成本。
贡献:
本文综述了当前医学影像学中合成数据的研究现状,并重点介绍了该领域当前面临的主要挑战,以指导今后的研究和发展。
0
在合成医学成像中,生成模型已用于生成脑部MRI扫描(16)、视网膜图像(17)和数字病理图像中的乳腺癌组织(18)。
合成数据有更多潜在的应用,例如在相同或不同模式之间转换图像、生成合成对比度增强图像、AI解释性(即使AI对人类可理解)和放射科医师培训。
本综述旨在为放射科医生和影像学研究人员提供一个关于合成数据的综合参考,作为确定该领域关键挑战和指导未来工作的路线图。
(由扩散模型生成并由放射科医师标记的合成胸片。随机抽取50张生成图像和50张真实胸片,由具有10年以上心胸成像临床经验的委员会认证放射科医师独立标记为合成或真实。最上面一行显示了被放射科医生误认为真实的合成胸片。下面一行显示了正确识别为合成的合成胸片。两行图像都是通过扩散模型生成的,扩散模型是根据美国国立卫生研究院胸片数据集的正常胸片样本训练的。在烧录的文本中,删除了注释以消除文本瑕疵。)
Synthetic Data: Promises and Potential——合成数据:前景与潜力
用于合成医学图像的生成模型:变分自动编码器、生成对抗网络(GANs)和扩散模型(19-21)。
Dataset Enrichment——数据集扩展
- Amirrajab和Al-Khalil等人(24)使用GAN生成具有成对分割掩模的心脏MRI扫描,随后用于训练分割模型。作者指出,用合成数据代替真实训练数据会降低心脏腔分割的性能。然而,在真实数据中添加合成图像显著提高了定量和定性评估的性能。
- Pan等人(25)使用扩散模型生成的图像来训练分类器;四个不同的模型用四个数据集进行训练,生成合成胸片、心脏MRI、盆腔CT和腹部CT图像。在一项读者研究中评估,生成的图像与真实的胸片和心脏MRI扫描无法区分,而骨盆和腹部的合成CT图像被认为不太真实。
Deidentification and Data Sharing——身份识别和数据共享
Federated learning(联邦学习),一种去中心化的人工智能技术,它通过多个远程设备或独立的数据中心(如医院)训练模型,同时保持数据本地化。
- Chang 等人(35)提出了通过去中心化训练的生成对抗网络(