MedM2G: Unifying Medical Multi-Modal Generation via Cross-Guided Diffusion with Visual Invariant

weixin_41749533

已于 2024-07-05 14:52:14 修改

阅读量1.9k

点赞数 11

文章标签：计算机视觉人工智能

于 2024-07-05 14:48:54 首次发布

本文链接：https://blog.csdn.net/weixin_41749533/article/details/140199105

版权

Chenlu Zhan1,2 Yu Lin2 Gaoang Wang1,2 (B) Hongwei Wang1,2(B) Jian Wu3 1 College of Computer Science and Technology, Zhejiang University2 ZIU-UIUC Institute, Zhejiang University3 Second Affiliated Hospital School of Medicine, and School of Public Health, Zhejiang University{chenlu.22, yulin, gaoangwang, hongweiwang}@intl.zju.edu.cn wujian2000@zju.edu.cn

原文链接：[2403.04290] MedM2G: Unifying Medical Multi-Modal Generation via Cross-Guided Diffusion with Visual Invariant (arxiv.org)

本文设计了比较多的实验，可以查看论文详细确认，并且其中有些原理部分，虽然文中写了见附录，但是下载下来的暂时没有附录页，可以关注一下后续是否有更新。

另外本文代码文中显示为有待上传，也有待确认。Publications (cvnext.github.io)

摘要：

医学生成模型因其高质量的样本生成能力而得到认可，加速了医疗应用的快速增长。然而，最近的工作集中在针对不同医疗任务的单独医疗生成模型上，并且仅限于医学多模态知识不足，限制了医学综合诊断。在本文中，我们提出了 MedM2G，这是一种医学多模态生成框架，在一个统一的模型中对齐、提取和生成医疗多模态的关键创新。扩展到单一或两种医疗模式之外，我们在统一空间中通过中心对齐方法有效地对齐医疗多模态。值得注意的是，我们的框架通过保留每个成像方式的医学视觉不变性来提取有价值的临床知识，从而增强多模态生成的具体医学信息。通过将自适应交叉引导参数调节到多流扩散框架中，我们的模型促进了医学多模态之间的灵活交互以生成。MedM2G是第一个医学生成模型，将文本到图像、图像到文本和统一生成医疗模式(CT、MRI、X射线)的医疗生成任务统一起来。它跨 10 个数据集执行 5 个医疗生成任务，始终优于各种最先进的工作。

多模态医疗图像相关生成存在一些不平凡的挑战，如下：（1）多种医疗模式之间的巨大差异对实现对齐提出了重大挑战，并且成本昂贵。(2) 与一般领域的图像不同，医学成像模式（CT、MRI、Xray）各自具有特定的临床属性。传统的统一对齐方法[13,52,56]往往会导致混合。(3) 与使用大量匹配良好的跨模态数据库预训练的通用多模态生成模型 [52, 56] 不同，缺乏医学跨模态配对训练数据集难以重新训练医学多模态的生成能力。

MedM2G 通过与多个扩散模型交互来实现医学多模态生成。主要动机是解决以下问题：

1）MedM2G 可以为任意模态生成配对数据。我们利用生成的数据来预训练并提高下游任务的性能（分类、分割、检测、翻译）。

2) MedM2G 可以通过生成来补偿稀缺的医疗模式。

3) MedM2G可以融合和生成多模态进行医学综合分析。

4) MedM2G 可以在一个统一的模型中处理多个任务并实现 SOTA 结果。

本文贡献总结如下：

• 我们提出了 MedM2G，这是第一个能够对齐、提取和生成多种医疗模式的统一医学多流生成框架。
• 我们以自适应参数为有效医学多模态生成条件的多流交叉引导扩散策略，与医学视觉不变保存合作以保持特定的医学知识。

• MedM2G 在 5 个具有 10 个相应基准的医学多模态生成任务上取得了最先进的结果，说明了多模态医学生成的新能力。

效果展示：

1.图生文——医疗图像对应报告生成/文生图——文字描述生成医疗图像

2.多模态生成——从文字中对，CT图像/MRI/X-ray图像生成

3.图生图——CT图像/MRI/X-ray图像相互生成

模型结构概况：

我们的工作 MedM2G 扩展以三个步骤统一多个医疗模式生成任务：Align、Extract、Generate。(1) MedM2G 首先在有限的配对数据集（第 3.2、3.5 节）下，在统一的空间中有效地对齐多个医疗模式。(2) 值得注意的是，我们通过生成医学不变性来提取每个模态的有效临床知识（第 3.3 节）。(3) 对于多模态生成，我们提出了具有可训练适应参数的交叉引导对齐扩散，以进一步提高多模态的交互（第 3.4 节）。

1.Align——在统一的空间中有效地对齐多模态

2.Extract——医学视觉不变保存

3.Generate——潜在的交叉引导对齐生成

我们的跨模态扩散模型旨在使模态A和B的条件。我们将扩散步骤 t 处的模态 A 和 B 的潜在变量分别表示为 zA t 和 zB t。我们首先通过上下文编码器 VB 将 zB t 和自适应参数 fB 投影到另一种模态的共享潜在空间中，然后采用 UNet 的交叉注意力子层对模态 A 进行对齐 VB ([zB t , fB])。上下文编码器旨在将潜在变量嵌入到一个统一的共享潜在空间中。最后，我们的模态 A 扩散模型的训练目标可以形式化为：LA Cross = Ez,ε,t,fB ∥ ε − εθc (zA t , t, VB ([zB t , fB ]) ∥2 2 (6) 其中 θc 是交叉注意力层的权重，[·, ·] 是连接。我们将几代模态 A 和 B 表示为 LA Cross + LB Cross。

4.实际训练流程：

我们首先为每个医疗模式采用预训练的扩散模型。然后，这些扩散模型通过 3 轮配对训练（Text-Xray、Text-CT、CT-MRI）和“Cross-guided Alignment”有效地参与联合多模态生成。如图 3 所示，我们首先在文本 X 射线配对数据集上训练文本编码器 VT、VXray 和文本和 X 射线扩散器的交叉注意力子层权重。然后我们冻结文本扩散器的可训练参数，并在文本-CT配对数据集上训练CT扩散器的上下文编码器VCT和交叉注意子层权重。最后，我们冻结CT扩散器的可训练参数，并在MRI-CT配对数据集上训练MRI扩散器的上下文编码器VM RI和交叉注意子层权重。在这个多流训练过程中，我们提出的统一扩散模型只需三个医学配对数据集就可以处理多个医学生成任务（第 5 节）。

总结：

在本文中，我们介绍了 MedM2G，这是第一个在统一模型中对齐、提取和生成医学多模态的医学生成模型。关键的创新集中于通过提出的视觉不变保存对每个医疗模态进行有效的临床知识提取，以及提出的潜在多流交叉引导扩散框架，有效地增强多模态生成的跨模态交互。MedM2G 在 10 个数据集上的 5 个医疗生成任务中取得了优异的成绩。代码将发布。（蹲一个更新后代码路径）