DDIM、DDPM的sample结果与对比

لا معنى له

已于 2025-03-09 16:05:42 修改

阅读量1k

点赞数 21

文章标签：机器学习人工智能

于 2025-03-04 17:17:35 首次发布

本文链接：https://blog.csdn.net/Luu_uu_uu/article/details/146018144

版权

代码来源：GitHub - LittleNyima/code-snippets

1.ddpm与ddim采样时间和效果的对比

使用cifar-10数据集，训练轮数皆为50轮。采样过程均生成32张图。
ddpm：

Sampling took 58.68 seconds.

ddim:

Sampling completed in 1.44 seconds
对比可以看出，ddim的速度明显比ddpm快多了。不过效果嘛。。。可能是训练的次数不够吧，确实也看不出什么东西。不过ddpm训练出来的东西确实比ddim要少掉san些（？）

然后又用原作者提供的权重模型跑了一下两个的sampling:

DDPM:

Sampling took 60.04 seconds.

DDIM:

Sampling completed in 1.44 seconds

又用CelebA数据集跑了一次，选取了前10000张照片，100epoch

ddpm：

图片 ddpm_20250304-154744.png 用时 59.24 秒

ddim：

ddim_20250304_154848用时1.44 秒

2、ddpm采样过程中噪声项 $\sigma_t \mathbf{z}$ 的作用？

测试了一下删除 $\sigma_t \mathbf{z}$ 的效果（使用celebA数据集的训练结果）。发现无法生成图片。大部分的采样结果是一片黑，少部分的采样结果能隐约看见人的轮廓，背景为深蓝色，其余黑色。

调节 $\sigma_t \mathbf{z}$ 的系数大小，并比较

epsilon_scale = 0.5  #  0.1 ~ 1.0 之间的值
epsilon = epsilon_scale * torch.randn_like(images)

①epsilon_scale = 0.25

②epsilon_scale = 0.5

③epsilon_scale = 0.75

③epsilon_scale = 1.0

③epsilon_scale = 1.1

③epsilon_scale = 1.5

③epsilon_scale = 2

可以发现，随着系数的降低，sample出来的图像亮度降低，逐渐趋于同质化，且没有背景（背景为纯色）

以下为出现这个原因的一些猜想。

①噪声没有正确弥补，导致采样过程中图像亮度降低

在每个时间步 t， $\hat{\epsilon}$ 由 UNet 预测，但预测结果不可能完全准确，它会有误差 $\delta$ ，即： $\hat{\epsilon} = \epsilon + \delta$

如果 epsilon 过小，意味着 σ_t * ε 几乎被移除，每一步的计算变成：

$x_{t-1} \approx \frac{1}{\sqrt{\alpha_t}} (x_t - \frac{1 - \alpha_t}{\sqrt{1 - \bar{\alpha}_t}} \cdot \hat{\epsilon})$

由于 UNet 的噪声预测有累积误差，这些误差没有被 σ_t * ε 平衡掉，而是一步步减少图像信号的整体强度，导致亮度降低。

②生成的样本多样性降低，很多样本会塌缩

σ_t * ε 代表了采样过程中增加的随机性，本质上它会给图像提供一些额外的方差信息，防止采样塌缩。当 epsilon 过小，去噪的方差越来越小，使得生成图像的像素值逐渐收敛到一个固定的均值，导致：生成的不同样本变得越来越相似，缺乏多样性（趋于同质化），同时亮度逐渐衰减，因为整个图像像素值在不断向某个固定值塌缩。

3.ddim步数与生成时间、图像质量之间的关系

修改跳步采样时的步数

        num_train_timesteps: int = 1000,  # 训练时的时间步数
        beta_start: float = 0.0001,  # beta 的起始值
        beta_end: float = 0.02,  # beta 的结束值
        sample_steps: int = 20,  # 采样过程中使用的时间步数

逐渐增加时间步数，查看采样结果与运行时间