DDIM去噪扩散隐式模型

整点薯条吃吃喽

已于 2025-04-05 15:21:44 修改

阅读量1k

点赞数 36

文章标签：机器学习人工智能

于 2025-03-16 16:15:58 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_63855028/article/details/146292725

版权

目录

1. DDIM的核心思想

2. DDIM的加速机制

3. 数学推导与实现

4. 应用与优势

5. 与DDPM的区别

1. 前向过程的推广：从马尔可夫链到非马尔可夫链

2. 反向采样公式的重新推导

3. 方差参数 σt的自由度

4. 生成过程的加速原理

5. 数学对比表格

6. 关键公式差异示例

知识回顾

现在有长度为n且按照时间分布的序列，x1,x2,...,xt−1,xt,...,xn
先验概率（根据以往经验和分析得到的概率）： q(xt|xt−1)，给定前一时刻的xt−1预测当前时刻xt的概率
后验概率（指在得到结果的信息后重新修正的概率）： p(xt−1|xt)，给定当前时刻的xt预测前一时刻xt−1的概率
条件概率：设A，B是随机试验E的两个随机试验，且P(B)>0，称P(A|B)=P(AB) / P(B)为事件B发生的条件下，事件A发生的条件概率。P(AB)即为A事件和B事件的交集。
贝叶斯公式 : P(A|B)=[ P(B|A)P(A) ] / P(B)
马尔科夫链（Markov Chain）：下一状态的概率分布只能由当前状态决定
Unet
DDPM公式推导：

DDPM算法https://zhuanlan.zhihu.com/p/666552214

DDIM是指去噪扩散隐式模型（Denoising Diffusion Implicit Models），这是一种改进的扩散模型，旨在加速生成图像的过程。具体来说，DDIM通过改变扩散过程的数学基础，使其不再依赖于马尔科夫链的性质，从而允许在采样过程中进行跳跃，减少所需的时间步数。这意味着与经典的去噪扩散概率模型（DDPM）相比，DDIM可以在保持或甚至提高生成图像质量的同时，显著缩短生成时间。

DDIM的具体含义和工作原理如下：

非马尔科夫过程：与DDPM不同，DDIM在推导过程中不去使用马尔科夫链假设。这意味着DDIM在生成图像时不需要严格的一步接一步的顺序，而是可以直接进行跳跃式的采样。
采样分布：DDIM通过调整采样分布的公式，使其能够直接从一个随机噪声生成图像，而中间不再加入额外的随机噪声。这使得生成过程变得更加确定性。
加速采样：由于不再受马尔科夫链的限制，DDIM可以采用更少的采样步数来生成图像，从而大大加快了生成速度。例如，如果DDPM需要1000步来生成图像，DDIM可能只需要几十步。
质量与多样性权衡：虽然DDIM在加速生成的同时保持了较好的图像质量，但其多样性可能不如DDPM。这是因为DDIM的确定性生成过程减少了生成过程中随机性的引入。
训练与推断的一致性：DDIM的训练阶段与DDPM完全一致，但在推断阶段通过改变采样策略来加速生成过程。

具体了解

1. DDIM的核心思想

DDIM在DDPM（Denoising Diffusion Probabilistic Models）的基础上，通过非马尔可夫链的扩散过程实现更高效的生成。其核心创新点包括：

非马尔可夫假设：DDIM不再要求扩散过程必须遵循马尔可夫链的严格依赖关系，允许跳过去噪过程中的步骤，而不需要在当前状态之前访问所有过去的状态。
确定性生成：通过将方差参数设为0（如σ_t=0），DDIM的生成过程变为确定性，从而减少随机噪声的干扰，提高生成效率。
共享训练目标：DDIM与DDPM使用相同的训练目标，可直接复用训练好的模型，无需重新训练。

2. DDIM的加速机制

DDIM通过以下方法显著减少生成所需的步骤：

子序列采样：从原始扩散步骤（如1000步）中选择子序列（如每隔50步），仅在这些子步骤中执行生成操作，从而减少计算量。
参数调整：通过调整方差参数η，平衡生成速度与质量。当η=0时，生成完全确定化，速度最快；η=1时则退化为DDPM。
隐式建模：利用隐变量空间的确定性映射，减少对历史状态的依赖，进一步加速推理。

3. 数学推导与实现

DDIM的数学基础是对DDPM的贝叶斯框架进行泛化：

待定系数法：通过假设后验分布的形式，并利用边缘分布条件求解待定系数，推导出非马尔可夫链的扩散过程。
重参数化技巧：将生成步骤表示为对原始图像x₀的预测，结合当前噪声估计调整生成路径。
代码实现：与DDPM共享噪声预测网络，仅在采样时调整步骤，代码改动较小。

4. 应用与优势

加速生成：DDIM可将生成速度提升10倍至50倍，同时保持图像质量。
图像反演（Inversion）：支持将图像转换到隐空间，并实现高精度重建，误差极小，适用于图像编辑任务。
隐空间插值：在隐变量空间中插值生成中间图像，但需注意其非平滑性。

5. 与DDPM的区别

特性	DDPM	DDIM
生成过程	马尔可夫链，随机性高	非马尔可夫，可确定性
采样速度	慢（需完整步骤）	快（支持子序列）
隐空间能力	不支持反演与插值	支持反演与插值
方差参数	固定为β_t	可调整（如σ_t=0）

总结

DDIM通过非马尔可夫假设和确定性生成，在保持生成质量的同时大幅提升效率，并扩展了图像反演等应用场景。其核心贡献在于重新定义了扩散模型的生成路径，为后续研究（如Stable Diffusion等）奠定了基础

公式层面

核心区别在于扩散过程的数学定义和反向采样策略。尽管两者共享相同的训练目标（预测噪声），但DDIM通过重新设计扩散路径，将马尔可夫链推广为非马尔可夫链，从而在数学上实现更灵活的采样。以下是公式层面的关键变化：

1. 前向过程的推广：从马尔可夫链到非马尔可夫链

2. 反向采样公式的重新推导

3. 方差参数 σt的自由度

4. 生成过程的加速原理

5. 数学对比表格

公式特性	DDPM	DDIM
前向过程	马尔可夫链	非马尔可夫链
反向采样	基于 μθ(xt,t)μθ(xt,t)	基于预测的 x0x0 重构
方差参数	固定为 βtβt	可调参数 σtσt
随机性控制	完全随机（σt≠0σt=0）	可通过 σt=0σt=0 变为确定性
采样步骤依赖性	必须顺序执行所有步骤	支持任意子序列跳跃采样

6. 关键公式差异示例

总结

DDIM的公式改进集中在：

放宽马尔可夫假设，允许非马尔可夫扩散路径。
显式建模条件分布qσ(xt−1∣xt,x0)，引入可调方差参数 σt。
基于预测的 x0重构反向步骤，而非直接预测 xt−1的均值。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。