目录
知识回顾
- 现在有长度为n且按照时间分布的序列,x1,x2,...,xt−1,xt,...,xn
- 先验概率(根据以往经验和分析得到的概率): q(xt|xt−1),给定前一时刻的xt−1预测当前时刻xt的概率
- 后验概率(指在得到结果的信息后重新修正的概率): p(xt−1|xt),给定当前时刻的xt预测前一时刻xt−1的概率
- 条件概率:设A,B是随机试验E的两个随机试验,且P(B)>0,称P(A|B)=P(AB) / P(B)为事件B发生的条件下,事件A发生的条件概率。P(AB)即为A事件和B事件的交集。
- 贝叶斯公式 : P(A|B)=[ P(B|A)P(A) ] / P(B)
- 马尔科夫链(Markov Chain):下一状态的概率分布只能由当前状态决定
- Unet
- DDPM公式推导:
DDPM算法https://zhuanlan.zhihu.com/p/666552214
DDIM是指去噪扩散隐式模型(Denoising Diffusion Implicit Models),这是一种改进的扩散模型,旨在加速生成图像的过程。具体来说,DDIM通过改变扩散过程的数学基础,使其不再依赖于马尔科夫链的性质,从而允许在采样过程中进行跳跃,减少所需的时间步数。这意味着与经典的去噪扩散概率模型(DDPM)相比,DDIM可以在保持或甚至提高生成图像质量的同时,显著缩短生成时间。
DDIM的具体含义和工作原理如下:
-
非马尔科夫过程:与DDPM不同,DDIM在推导过程中不去使用马尔科夫链假设。这意味着DDIM在生成图像时不需要严格的一步接一步的顺序,而是可以直接进行跳跃式的采样。
-
采样分布:DDIM通过调整采样分布的公式,使其能够直接从一个随机噪声生成图像,而中间不再加入额外的随机噪声。这使得生成过程变得更加确定性。
-
加速采样:由于不再受马尔科夫链的限制,DDIM可以采用更少的采样步数来生成图像,从而大大加快了生成速度。例如,如果DDPM需要1000步来生成图像,DDIM可能只需要几十步。
-
质量与多样性权衡:虽然DDIM在加速生成的同时保持了较好的图像质量,但其多样性可能不如DDPM。这是因为DDIM的确定性生成过程减少了生成过程中随机性的引入。
-
训练与推断的一致性:DDIM的训练阶段与DDPM完全一致,但在推断阶段通过改变采样策略来加速生成过程。
具体了解
1. DDIM的核心思想
DDIM在DDPM(Denoising Diffusion Probabilistic Models)的基础上,通过非马尔可夫链的扩散过程实现更高效的生成。其核心创新点包括:
-
非马尔可夫假设:DDIM不再要求扩散过程必须遵循马尔可夫链的严格依赖关系,允许跳过去噪过程中的步骤,而不需要在当前状态之前访问所有过去的状态。
-
确定性生成:通过将方差参数设为0(如σ_t=0),DDIM的生成过程变为确定性,从而减少随机噪声的干扰,提高生成效率。
-
共享训练目标:DDIM与DDPM使用相同的训练目标,可直接复用训练好的模型,无需重新训练。
2. DDIM的加速机制
DDIM通过以下方法显著减少生成所需的步骤:
-
子序列采样:从原始扩散步骤(如1000步)中选择子序列(如每隔50步),仅在这些子步骤中执行生成操作,从而减少计算量。
-
参数调整:通过调整方差参数η,平衡生成速度与质量。当η=0时,生成完全确定化,速度最快;η=1时则退化为DDPM。
-
隐式建模:利用隐变量空间的确定性映射,减少对历史状态的依赖,进一步加速推理。
3. 数学推导与实现
DDIM的数学基础是对DDPM的贝叶斯框架进行泛化:
-
待定系数法:通过假设后验分布的形式,并利用边缘分布条件求解待定系数,推导出非马尔可夫链的扩散过程。
-
重参数化技巧:将生成步骤表示为对原始图像x₀的预测,结合当前噪声估计调整生成路径。
-
代码实现:与DDPM共享噪声预测网络,仅在采样时调整步骤,代码改动较小。
4. 应用与优势
-
加速生成:DDIM可将生成速度提升10倍至50倍,同时保持图像质量。
-
图像反演(Inversion):支持将图像转换到隐空间,并实现高精度重建,误差极小,适用于图像编辑任务。
-
隐空间插值:在隐变量空间中插值生成中间图像,但需注意其非平滑性。
5. 与DDPM的区别
特性 | DDPM | DDIM |
---|---|---|
生成过程 | 马尔可夫链,随机性高 | 非马尔可夫,可确定性 |
采样速度 | 慢(需完整步骤) | 快(支持子序列) |
隐空间能力 | 不支持反演与插值 | 支持反演与插值 |
方差参数 | 固定为β_t | 可调整(如σ_t=0) |
总结
DDIM通过非马尔可夫假设和确定性生成,在保持生成质量的同时大幅提升效率,并扩展了图像反演等应用场景。其核心贡献在于重新定义了扩散模型的生成路径,为后续研究(如Stable Diffusion等)奠定了基础
公式层面
核心区别在于扩散过程的数学定义和反向采样策略。尽管两者共享相同的训练目标(预测噪声),但DDIM通过重新设计扩散路径,将马尔可夫链推广为非马尔可夫链,从而在数学上实现更灵活的采样。以下是公式层面的关键变化:
1. 前向过程的推广:从马尔可夫链到非马尔可夫链
2. 反向采样公式的重新推导
3. 方差参数 σt的自由度
4. 生成过程的加速原理
5. 数学对比表格
公式特性 | DDPM | DDIM |
---|---|---|
前向过程 | 马尔可夫链 | 非马尔可夫链 |
反向采样 | 基于 μθ(xt,t)μθ(xt,t) | 基于预测的 x0x0 重构 |
方差参数 | 固定为 βtβt | 可调参数 σtσt |
随机性控制 | 完全随机(σt≠0σt=0) | 可通过 σt=0σt=0 变为确定性 |
采样步骤依赖性 | 必须顺序执行所有步骤 | 支持任意子序列跳跃采样 |
6. 关键公式差异示例
总结
DDIM的公式改进集中在:
-
放宽马尔可夫假设,允许非马尔可夫扩散路径。
-
显式建模条件分布qσ(xt−1∣xt,x0),引入可调方差参数 σt。
-
基于预测的 x0重构反向步骤,而非直接预测 xt−1的均值。