论文信息
题目:Anatomically-Controllable Medical Image Generation with Segmentation-Guided Diffusion Models
解剖学可控的医学图像生成:分割引导的扩散模型
源码:https://github.com/mazurowski-lab/segmentation-guided-diffusion
论文创新点
-
解剖学可控的医学图像生成:作者提出了一种基于扩散模型的方法,支持解剖学可控的医学图像生成。这种方法通过在每个采样步骤中遵循多类解剖学分割掩模,实现了对生成图像的解剖学约束,这是现有方法难以实现的。
-
随机掩模消融训练算法:为了解决输入掩模可能不完全注释的问题,作者引入了一种随机掩模消融训练算法。这种算法通过在训练过程中提供所有可能的掩模类别组合,使模型能够灵活地在某些区域进行条件控制,同时在其他区域保持灵活性。
-
潜在空间插值生成可调解剖学相似度的图像:作者展示了如何通过在模型的潜在空间中进行插值,生成与某些真实图像解剖学相似度可调的图像。这种技术允许用户通过调整参数λ来控制生成图像与真实图像之间的相似度,提供了额外的灵活性。
-
分割引导的扩散模型(SegGuidedDiff):作者介绍了一个名为SegGuidedDiff的扩散模型,它能够根据解剖掩模灵活且精确地生成医学图像。该模型在乳房 MRI 和腹部/颈部至盆腔 CT 数据集上的表现超越了现有的掩模条件生成模型,达到了新的最佳水平。
摘要
扩散模型使得医学图像生成的质量非常高,但在生成的图像中加入解剖学约束仍然是一个挑战。为此,我们提出了一种基于扩散模型的方法,该方法通过在每个采样步骤中遵循多类解剖学分割掩模来支持解剖学可控的医学图像生成。此外,我们还引入了一种随机掩模消融训练算法,使得在允许其他解剖区域灵活的同时,能够对选定的解剖学约束组合进行条件控制。我们在带有各种解剖对象的乳房 MRI 和腹部/颈部至盆腔 CT 数据集上与现有方法进行了比较。结果表明,我们的方法(称为“SegGuidedDiff”)在两个数据集上生成的图像对输入解剖掩模的忠实度方面达到了新的最佳水平,并且在一般解剖学现实性方面表现相当。最后,我们的模型还具有一个额外的好处,即能够通过在其潜在空间中的插值来调整生成图像与选定真实图像的解剖学相似性。SegGuidedDiff 在许多应用中都非常有用,包括跨模态转换和成对或反事实数据的生成。
关键词
扩散模型 · 图像生成 · 语义合成
1 方法
1.1 扩散模型的简要回顾
去噪扩散概率模型(DDPMs,简称扩散模型)是一种生成潜在变量模型,通过定义一个随机过程逐渐将数据转换为噪声——前向过程 ——并学习通过学习去噪过程 θ 来逆转这一过程,其中 θ 是模型参数。数据是通过迭代从 θ 中采样生成的,从高斯噪声样本 开始,对于 (我们使用 ),直到恢复图像 。任何前向过程步骤都可以明确地写成 ααϵ,其中 ϵ,并且 αβ 给定添加性预计划噪声 β 的方差,并且 αα。DDPMs 可以通过通常的证据下界(ELBO)最大化来训练,这可以通过训练一个网络 ϵθ 来近似优化一个相对简单的形式,以预测在各个时间步骤 中添加到每个数据点 的噪声 ϵ,损失函数为 ,这在实践中被证明是通常更优越的 DDPM 损失。
1.2 向扩散模型添加分割引导
我们的目标是将某些 c 通道图像 的生成条件限制为遵循某些多类解剖掩模 ,其中 C 是类别数量(包括背景),换句话说,从 中采样。修改数据可能性 为掩模条件不会改变噪声过程 ,但它确实修改了逆过程 θ 和噪声预测网络 ϵθ。将此传播到 ELBO 结果是一个损失函数 用于训练我们的模型,其中每个训练图像 都有一些配对的掩模 。我们建议简单地通过在每个去噪步骤中将掩模通道-wise 连接到网络输入来实现这一点,即修改网络以具有一个额外的输入通道作为 ,可以是任何图像到图像模型(见第 3 节)。我们使用 DDIM 算法进行快速而高质量的采样。
这种简单的方法生成的图像对输入掩模非常忠实(图 2,表 1),因为去噪过程在许多渐进步骤中都受到掩模的条件限制,允许网络遵循掩模,因为它们提供了与最小化损失的最佳去噪模型输出直接相关的有用空间信息。
1.3 掩模消融训练和采样
鉴于我们的模型是掩模引导的,这些掩模的质量很重要;如果输入掩模没有完全注释,则生成的图像可能会误导,这在医学图像分析中被称为部分标签问题。这是因为模型可能会假设未注释的对象在输出图像中根本不应该出现(将缺失的/零像素标签与背景或其他对象关联),而实际上我们可能希望模型简单地“填充”/推断未提供的对象。为了缓解这个问题,我们提出了一种掩模消融训练(MAT)策略(算法 1),为模型在训练期间提供各种数量和组合的类别被移除的掩模示例,教导模型在生成新图像时进行此类推断。这可以被看作是一种自监督学习的解剖对象表示形式(与 MAE 类似)。我们将给定掩模中所有 这些可能的类别组合被移除的训练设置为等概率发生,以便模型可以平等地处理每一个,尽管也可以使用其他不同对象类别的概率平衡。最后,我们注意到我们的 MAT 算法可以立即适用于任何掩模条件生成模型。
3 实验
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。