1. 摘要
医学生成模型以其高质量的样本生成能力而闻名,加速了医学应用的快速增长。然而,目前的研究主要集中在针对不同医疗任务的单独医学生成模型上,受限于医学多模态知识的不足,制约了医学的综合诊断。在本文中,我们提出MedM2G,即医学多模态生成框架,其关键创新是在统一模型内对齐、提取和生成医学多模态。超越单一或两种医疗模式,我们通过统一空间中的中心对齐方法有效地对齐医疗多模式。值得注意的是,我们的框架通过保留每个成像模态的医学视觉不变性来提取有价值的临床知识,从而增强了多模态生成的特定医学信息。通过将自适应交叉引导参数调节到多流扩散框架中,我们的模型促进了医学多模态之间的灵活交互。第一个医学生成模型,统一了文本到图像、图像到文本的医学生成任务,并统一了医学模式(CT、MRI、x射线)的生成。它在10个数据集上执行5个医疗生成任务,始终优于各种最先进的工作。
2. 引言
近年来,各种基于去噪扩散模型的先进医学生成工作显著提高了医学诊断任务的效率,如医学文本到图像、图像到文本生成任务、MRI- ct事务任务、MRI合成任务。医学模态的生成集中于捕获每个模态的独特的特定医学知识,并扩展到相应的医学应用。
然而,大多数这些医学生成模型依赖于不同的单流管道来完成专门的生成任务,过程繁琐且缓慢。在现实世界的医疗场景中,需要整合多种医疗模式进行分析,这种生成方法在其扩展方面面临着实质性的限制。此外,最近先进的多模态生成工作在提取特定医学知识和利用有限的医学配对数据以获得跨模态生成能力方面面临挑战。这些促使我们构建一个统一的医学生成模型,能够处理多种医学模式的任务。目前仍存在一些不容忽视的挑战,包括:
(1)多种医疗模式之间的巨大差异给实现一致性带来了重大挑战,并带来了高昂的成本。
(2)与一般领域的图像不同,医学成像模式(CT、MRI、x射线)各有其特定的临床特征。传统的统一对准方法往往会导致混合。
(3)与使用大型匹配良好的跨模态数据库预训练的一般多模态生成模型不同,缺乏医学跨模态配对训练数据集给医学多模态生成能力的再训练带来了困难。
为了应对上述挑战,我们提出了MedM2G,这是一种统一的医学多模态生成模型,创新地在统一模型中对齐、提取和生成多种医学模态,如图1所示。MedM2G通过与多个扩散模型交互实现医学多模态生成。主要动机是解决以下问题:
1)MedM2G可以生成任意模式的配对数据。我们利用生成的数据来预训练和提高下游任务(分类、分割、检测、翻译)的性能。
2) MedM2G可以弥补稀缺医疗模态的生成。
3) MedM2G可以融合并生成多模态,用于医学综合分析。
4) MedM2G可以在一个统一的模型内处理多个任务,实现SOTA结果。
具体来说,扩展到以高效成本对齐多个医疗模式,我们首先提出了在输入和输出共享空间中有效采用的中心对齐,它简单地将每个模式的嵌入与文本嵌入对齐,从而实现所有模式的对齐(第4.2节)。值得注意的是,为了保持跨模态概念生成特有的三种医学成像模式的特定医学知识,我们提出了通过最小化两个增强视图的非对角线元素来更好地提取医学视觉不变性保存(第4.3节)。此外,促进医学跨模态的交互是至关重要的,因此我们将自适应表示和可共享的跨注意子层置于每个跨模态扩散器中(第4.4节)。结合提出的多流训练策略(第4.5节),我们的模型可以无缝地处理多个医疗生成任务,而无需跨模态配对数据集。我们在相应的10个数据集上对5个医学多模态生成任务进行了广泛的实验。综合实验验证了该方法的有效性并且MedM2G在对齐、提取和生成多种医疗模式方面的效率。我们的贡献总结如下:
•我们提出MedM2G,这是第一个统一的医疗多流生成框架,能够对齐、提取和生成多种医疗模式。
•我们提出了以自适应参数为条件的多流交叉引导扩散策略,以有效地生成医学多模态,并配合医学视觉不变保存来保持特定的医学知识。
•MedM2G在5个医学多模态生成任务和10个相应基准上获得了最先进的结果,说明了多模态医学生成的新能力。
3. 相关工作
3.1. 扩散模型
扩散模型(DM)通过描绘正向扩散阶段来获取数据分布,并通过从有噪声数据样本中恢复无噪声数据来逆转这一扩散过程。对于最近的扩散工作,一些模型通过相邻像素的相关性生成高质量的样本,而其他模型则试图构建潜在语义空间以提高效率。DDP获得了学习逆扩散过程的能力,该过程将输入图像转换为潜在空间,并利用解码器将这些潜在变量映射回重建数据结构的输出图像。DDPM利用扩散过程,优化加权变分界,该变分界是通过在概率扩散模型和使用Langevin动力学的去噪分数匹配之间的创新连接构建的。DDIM引入了一个隐式扩散过程,以最小的成本和更高的质量产生来自潜在变量的确定性样本。另一项研究引入了一种自适应学习方法,可以逐步调整噪声参数,以达到更高的质量和速度。LDM采用VAE将输入嵌入到潜在空间中,降低建模维数,提高效率。这些工作主要集中在增强单流扩散管道上,缺乏在统一模型中处理多流生成的能力。为了克