DDIM去噪扩散隐式模型

目录

知识回顾

具体了解

1. DDIM的核心思想

2. DDIM的加速机制

3. 数学推导与实现

4. 应用与优势

5. 与DDPM的区别

总结

公式层面

1. 前向过程的推广:从马尔可夫链到非马尔可夫链

2. 反向采样公式的重新推导

3. 方差参数 σt的自由度

4. 生成过程的加速原理

5. 数学对比表格

6. 关键公式差异示例

总结


知识回顾

  1. 现在有长度为n且按照时间分布的序列,x1,x2,...,xt−1,xt,...,xn
  2. 先验概率(根据以往经验和分析得到的概率): q(xt|xt−1),给定前一时刻的xt−1预测当前时刻xt的概率
  3. 后验概率(指在得到结果的信息后重新修正的概率): p(xt−1|xt),给定当前时刻的xt预测前一时刻xt−1的概率
  4. 条件概率:设A,B是随机试验E的两个随机试验,且P(B)>0,称P(A|B)=P(AB) / P(B)为事件B发生的条件下,事件A发生的条件概率。P(AB)即为A事件和B事件的交集。
  5. 贝叶斯公式 : P(A|B)=[ P(B|A)P(A) ]  /  P(B)
  6. 马尔科夫链(Markov Chain):下一状态的概率分布只能由当前状态决定
  7. Unet
  8. DDPM公式推导:

DDPM算法https://zhuanlan.zhihu.com/p/666552214


DDIM是指去噪扩散隐式模型(Denoising Diffusion Implicit Models),这是一种改进的扩散模型,旨在加速生成图像的过程。具体来说,DDIM通过改变扩散过程的数学基础,使其不再依赖于马尔科夫链的性质,从而允许在采样过程中进行跳跃,减少所需的时间步数。这意味着与经典的去噪扩散概率模型(DDPM)相比,DDIM可以在保持或甚至提高生成图像质量的同时,显著缩短生成时间。

DDIM的具体含义和工作原理如下:

  • 非马尔科夫过程:与DDPM不同,DDIM在推导过程中不去使用马尔科夫链假设。这意味着DDIM在生成图像时不需要严格的一步接一步的顺序,而是可以直接进行跳跃式的采样。

  • 采样分布:DDIM通过调整采样分布的公式,使其能够直接从一个随机噪声生成图像,而中间不再加入额外的随机噪声。这使得生成过程变得更加确定性。

  • 加速采样:由于不再受马尔科夫链的限制,DDIM可以采用更少的采样步数来生成图像,从而大大加快了生成速度。例如,如果DDPM需要1000步来生成图像,DDIM可能只需要几十步。

  • 质量与多样性权衡:虽然DDIM在加速生成的同时保持了较好的图像质量,但其多样性可能不如DDPM。这是因为DDIM的确定性生成过程减少了生成过程中随机性的引入。

  • 训练与推断的一致性:DDIM的训练阶段与DDPM完全一致,但在推断阶段通过改变采样策略来加速生成过程。


具体了解

1. DDIM的核心思想

DDIM在DDPM(Denoising Diffusion Probabilistic Models)的基础上,通过非马尔可夫链的扩散过程实现更高效的生成。其核心创新点包括:

  • 非马尔可夫假设:DDIM不再要求扩散过程必须遵循马尔可夫链的严格依赖关系,允许跳过去噪过程中的步骤,而不需要在当前状态之前访问所有过去的状态

  • 确定性生成:通过将方差参数设为0(如σ_t=0),DDIM的生成过程变为确定性,从而减少随机噪声的干扰,提高生成效率。

  • 共享训练目标:DDIM与DDPM使用相同的训练目标,可直接复用训练好的模型,无需重新训练。


2. DDIM的加速机制

DDIM通过以下方法显著减少生成所需的步骤:

  • 子序列采样:从原始扩散步骤(如1000步)中选择子序列(如每隔50步),仅在这些子步骤中执行生成操作,从而减少计算量。

  • 参数调整:通过调整方差参数η,平衡生成速度与质量。当η=0时,生成完全确定化,速度最快;η=1时则退化为DDPM。

  • 隐式建模:利用隐变量空间的确定性映射,减少对历史状态的依赖,进一步加速推理。


3. 数学推导与实现

DDIM的数学基础是对DDPM的贝叶斯框架进行泛化:

  • 待定系数法:通过假设后验分布的形式,并利用边缘分布条件求解待定系数,推导出非马尔可夫链的扩散过程。

  • 重参数化技巧:将生成步骤表示为对原始图像x₀的预测,结合当前噪声估计调整生成路径。

  • 代码实现与DDPM共享噪声预测网络,仅在采样时调整步骤,代码改动较小。


4. 应用与优势

  • 加速生成:DDIM可将生成速度提升10倍至50倍,同时保持图像质量。

  • 图像反演(Inversion):支持将图像转换到隐空间,并实现高精度重建,误差极小,适用于图像编辑任务。

  • 隐空间插值:在隐变量空间中插值生成中间图像,但需注意其非平滑性。


5. 与DDPM的区别

特性DDPMDDIM
生成过程马尔可夫链,随机性高非马尔可夫,可确定性
采样速度慢(需完整步骤)快(支持子序列)
隐空间能力不支持反演与插值支持反演与插值
方差参数固定为β_t可调整(如σ_t=0)

总结

DDIM通过非马尔可夫假设确定性生成,在保持生成质量的同时大幅提升效率,并扩展了图像反演等应用场景。其核心贡献在于重新定义了扩散模型的生成路径,为后续研究(如Stable Diffusion等)奠定了基础

公式层面

核心区别在于扩散过程的数学定义反向采样策略。尽管两者共享相同的训练目标(预测噪声),但DDIM通过重新设计扩散路径,将马尔可夫链推广为非马尔可夫链,从而在数学上实现更灵活的采样。以下是公式层面的关键变化:

1. 前向过程的推广:从马尔可夫链到非马尔可夫链

2. 反向采样公式的重新推导

3. 方差参数 σt的自由度

4. 生成过程的加速原理

5. 数学对比表格

公式特性DDPMDDIM
前向过程马尔可夫链非马尔可夫链
反向采样基于 μθ(xt,t)μθ​(xt​,t)基于预测的 x0x0​ 重构
方差参数固定为 βtβt​可调参数 σtσt​
随机性控制完全随机(σt≠0σt​=0)可通过 σt=0σt​=0 变为确定性
采样步骤依赖性必须顺序执行所有步骤支持任意子序列跳跃采样

6. 关键公式差异示例

总结

DDIM的公式改进集中在:

  1. 放宽马尔可夫假设,允许非马尔可夫扩散路径。

  2. 显式建模条件分布qσ​(xt−1​∣xt​,x0​),引入可调方差参数 σt。

  3. 基于预测的 x0重构反向步骤,而非直接预测 xt−1的均值。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值