MICCAI 2022中的医学扩散模型

来源:知乎—JunMa

地址:https://zhuanlan.zhihu.com/p/569555913

没有意外,diffusion model的热浪也涌入了医学图像,这是今年MICCAI看到的几篇有意思的文章。

申明:由于笔者视野狭窄以及精力不足,一定错过了不少优秀的扩散模型相关的MICCAI文章,请大佬们评论区补充。文字内容是个人理解,请带着批评和质疑阅读,不要全信。

e937c8286ed59bc550356109cbe7be62.jpeg

任务介绍:给定起始时间心脏MR图像和终止时间图像,设计一个模型,能连续的给出中间时间点的图像。

3a80e25b622d6e36d927d8ed5bccdc04.jpeg

思路简介:用DDMP生成latent code (其实就是噪声),另一个网络基于latent code生成形变场,把source图像形变到target图像

1133778a85c75988e83b80a7b0fdc28d.jpeg

inference阶段:

  1. 输入target image,生成latent code,然后对其缩放(  )来模拟不同时间点的latent code;

  2. latent code送到deformation module里生成形变场,对source图像S形变生成 中间时间点的图像。

随笔:

刚看这篇文章的时候挺困惑的,在inference阶段跟DDPM完全不一样,没有输入噪声也没做reverse process,DDPM在这个框架里只用来生成latent code,为啥不用更简单的VAE呢?可能这样设计的原因是DDPM的输出跟原图大小是一样的,方便生成形变场。作者说从有这个idea,到文章写完,她只画了两个月时间,圈里真是好卷

18170f919b4c339c35fd1783c151f232.jpeg

任务介绍:输入有病灶的图像,设计模型输出其对应的没有病灶的图像,两者相减即可生成异常区域的map

fbf61ce3e40a8ece060a40ebafc8678d.jpeg

思路简介:在包含健康和带病变的图像上训练一个DDPM,同时训练一个分类器来区分带噪声的健康和病变图像(即DDPM前向过程中的中间结果)。

inference过程中输入带病变的图像,用训练好的分类器做引导,生成对应的无病灶图像。

Note: Reverse过程用的是DDIM做采样,不是默认的DDPM,有两个好吃:速度快+结果是确定的。

c76c6c9adf17d65ecb243d1341217923.jpeg

随笔:展示的例子病变都比较清晰,不知道对不清晰的病灶检测能力怎么样;如果输入一张正常的图像,用分类器引导它生成带病变的图像,比较好奇会在什么地方生成病灶,生成病灶的这些地方是不是常见的发病区域呢?

下面两篇文章都是用扩散模型做MR重建,但思路不一样,一个是在K-space做,另一个是主要在image-space做,用K-space信息做引导。

19274d0a368e7a5b72bd0a6f4d78c14c.jpeg 4928bf8497c690a6415966eb23f3ec05.jpeg

思路简介:整体流程是基于conditional DDPM,这也是在图像转换过程中最常用的模型。整个diffusion和reverse过程定义在K-space,而不是image space;condition是under-sampling mask (不是under-sample k-space)。reverse过程可以通过不同的噪声初始化得到多个采样结果,进而可以量化重建结果的uncertainty,比如pixel-variance。

fa0d213524212176f498634a63211941.jpeg 670210770e0d26054bd8326687adceb0.jpeg

作者提出已有工作存在两方面的不足:1)有监督学习的范式 只能处理一种情况下的下采样,不同的下采样需要训练不同的模型;2)确定性的建模过程,inference阶段模型只能给出一个结果,而不是所有可能结果的分布p(full MR|undersampling MR)

f29a0dc11a620004dae5c62371b151a3.jpeg

思路简介:先在全采样的MR图像上训练unconditional DDMP,然后用under-sampling k-space数据来引导模型生成对应的全采样图像,引导过程如下:1)给under-sampling k-space加高斯噪声;2)同时把基于训练的好的DDMP生成的图像变到k-space;3)通过公式(5)融合1)+2)逆变换到图像空间

e3297f86046fad2de9b4c1f65c282944.jpeg

这种思路的好处是一个训练的好的模型适用于不同的undersampling的情况,不用重新训练多个模型。

9d607f99b013af9659c2687d76fe3d08.jpeg

为了加速采样,作者提出了coarse-to-fine的策略

  • coarse:不跑完整的reverse过程,而是每隔50步采样一次

  • fine: 同时采样多个图像,最终求平均得到refine的结果

后记

个人比较喜欢后两个工作,把DDPM跟MR成像机理巧妙的结合在一起。diffusion model很适合做image-to-image translation的任务,相信接下来在medical image领域会有更多的成果出来。

机器学习顶会ICLR2021和2022都把outstanding paper之一授予了diffusion model相关的工作, ICLR 2023提交论文今天在open review放出来了,可以用diffusion model作为关键词搜索下相关文章,感受下其热度

https://openreview.net/group?id=ICLR.cc/2023/Conference

 
 
 
 
本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。
猜您喜欢:
深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读

 戳我,查看GAN的系列专辑~!一顿午饭外卖,成为CV视觉的前沿弄潮儿!
最新最全100篇汇总!生成扩散模型Diffusion ModelsECCV2022 | 生成对抗网络GAN部分论文汇总
CVPR 2022 | 25+方向、最新50篇GAN论文
 ICCV 2021 | 35个主题GAN论文汇总
超110篇!CVPR 2021最全GAN论文梳理
超100篇!CVPR 2020最全GAN论文梳理拆解组新的GAN:解耦表征MixNMatch

StarGAN第2版:多域多样性图像生成
附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享
《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》
《礼记·学记》有云:独学而无友,则孤陋而寡闻
欢迎加入 GAN/扩散模型 —交流微信群 !
扫描下面二维码,添加运营小妹好友,拉你进群。发送申请时,请备注,格式为:研究方向+地区+学校/公司+姓名。如 扩散模型+北京+北航+吴彦祖

请备注格式:研究方向+地区+学校/公司+姓名
点击 一顿午饭外卖,成为CV视觉的前沿弄潮儿!,领取优惠券,加入 AI生成创作与计算机视觉 知识星球!
<think>嗯,用户想了解扩散模型中的噪声预测模型的工作原理和应用。首先,我需要回忆一下扩散模型的基本概念。扩散模型是通过逐步添加噪声到数据中,然后学习逆转这个过程来生成新数据的。噪声预测模型在这个过程中应该起到关键作用。 用户提到了工作原理、实现方式和应用,所以需要分点详细讲解。先从扩散模型的前向过程开始解释,也就是如何逐步添加噪声。这里可能需要提到时间步t和高斯噪声的应用。然后,逆向过程需要模型来预测噪声,这样就能一步步去噪生成数据。 接下来,噪声预测模型的具体工作原理可能需要数学公式的支持。比如,变分下界和损失函数的设计,这样用户能理解模型是如何被训练的。同时,要确保使用正确的LaTeX格式,比如$q(x_t|x_{t-1})$和损失函数$\mathcal{L}_{\text{simple}}$。 实现方式部分,需要介绍常用的网络结构,比如U-Net,并解释时间步嵌入的作用。这部分可能需要结合代码示例,但用户要求的是讲解,所以可能不需要完整的代码,但可以给出关键部分的伪代码或结构描述。 应用方面,用户可能想知道扩散模型在图像生成、艺术创作等领域的实际应用情况。这里可以引用之前提到的潜在扩散模型(Latent Diffusion Model)作为例子,说明其高效性。同时,医学图像和音频生成也是重要的应用领域,需要提及。 需要注意的是,用户提供的引用中提到了潜在扩散模型扩散模型的训练步骤,所以需要确保在回答中正确引用这些内容,比如在逆向扩散过程或潜在空间应用的地方添加引用标记[^1]和[^2]。 可能还需要考虑用户的知识水平,避免使用过于专业的术语,或者在使用时进行适当的解释。例如,解释U-Net的结构时,可以简要说明其编码器-解码器结构和跳跃连接的作用,帮助读者理解为何选择这种网络。 另外,用户的问题可能隐含了对噪声预测模型为什么有效的疑问,比如为什么预测噪声能够帮助生成数据。这需要在原理部分进行解释,说明通过预测每一步的噪声,模型可以逐步还原出原始数据,类似于求解逆过程。 最后,生成的相关问题需要与扩散模型相关,可能涉及训练细节、与其他生成模型的比较,或者具体应用场景的深入探讨。这些问题应该引导用户进一步探索扩散模型的不同方面。 总结一下,回答的结构应该是:背景介绍、工作原理(前向和逆向过程)、噪声预测模型的数学原理、实现方式(网络结构和训练过程)、应用场景,最后是相关问题。确保每个部分都清晰,并且正确引用提供的参考资料。</think>### 扩散模型噪声预测模型详解 #### 一、噪声预测模型的核心原理 1. **前向扩散过程** 数据$x_0$逐步被添加高斯噪声,经过$T$步后变为纯噪声$x_T$。每一步的噪声强度由预设的方差表$\beta_t$控制,数学表达为: $$q(x_t|x_{t-1}) = \mathcal{N}(x_t; \sqrt{1-\beta_t}x_{t-1}, \beta_t\mathbf{I})$$ 这一过程将原始数据分布逐步转化为可解析处理的高斯分布。 2. **逆向去噪过程** 噪声预测模型的核心目标是学习反向过程$p_\theta(x_{t-1}|x_t)$,通过预测当前时间步的噪声$\epsilon_\theta$,逐步恢复原始数据: $$x_{t-1} = \frac{1}{\sqrt{\alpha_t}}\left(x_t - \frac{\beta_t}{\sqrt{1-\bar{\alpha}_t}}\epsilon_\theta(x_t,t)\right) + \sigma_t z$$ 其中$\alpha_t=1-\beta_t$,$\bar{\alpha}_t=\prod_{s=1}^t\alpha_s$,$z$为标准高斯噪声。 #### 二、数学建模与训练方法 1. **损失函数设计** 采用简化的均方误差损失: $$\mathcal{L}_{\text{simple}} = \mathbb{E}_{t,x_0,\epsilon}\left[\|\epsilon - \epsilon_\theta(x_t,t)\|^2\right]$$ 其中$\epsilon$为真实噪声,$\epsilon_\theta$为模型预测值,$x_t = \sqrt{\bar{\alpha}_t}x_0 + \sqrt{1-\bar{\alpha}_t}\epsilon$。 2. **训练流程** - 随机采样时间步$t \sim \text{Uniform}(1,T)$ - 生成带噪样本$x_t$ - 计算模型预测噪声与真实噪声的误差 - 通过梯度下降优化网络参数 #### 三、关键实现技术 1. **网络架构设计** 主流实现采用改进的U-Net结构: ```python class NoisePredictionUNet(nn.Module): def __init__(self): super().__init__() self.time_embed = SinusoidalPositionEmbedding() # 时间步编码 self.down_blocks = ResNetBlockStack(depth=4) # 下采样模块 self.mid_block = AttentionBlock() # 注意力中间层 self.up_blocks = ResNetBlockStack(depth=4) # 上采样模块 ``` 2. **时间步编码技术** 使用正弦位置编码将时间步$t$映射为高维向量,增强模型对扩散过程阶段的感知能力: $$\gamma(t) = [\sin(10000^{k/d}t), \cos(10000^{k/d}t)]_{k=0}^{d/2}$$ #### 四、典型应用场景 1. **图像生成领域** 潜在扩散模型(LDM)通过在隐空间操作,显著提升生成效率,实现512x512分辨率图像的实时生成。 2. **跨模态生成** 结合CLIP等跨模态编码器,支持文生图、图生视频等任务,如Stable Diffusion生成系统。 3. **科学计算领域** 应用于医学图像重建(MRI去噪)、分子结构生成等场景,在MICCAI 2022比赛中取得SOTA效果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值