Stable Diffusion扩散模型【详解】小白也能看懂！！

全息数据

已于 2024-08-13 16:33:23 修改

阅读量2.4k

点赞数 24

于 2024-04-04 20:49:29 首次发布

本文链接：https://blog.csdn.net/qq_23022733/article/details/135571108

版权

深度学习专栏收录该内容

75 篇文章 11 订阅

订阅专栏

本文详细介绍了StableDiffusion模型中的加噪和去噪过程，包括加噪的具体步骤（如图像标准化、噪声生成和权重设置）、去噪过程中的假设（马尔可夫链和高斯分布）、损失函数的转化以及Unet网络的应用。文中还提供了伪代码，展示了模型的训练和推导/采样/生成图片阶段的流程。

摘要由CSDN通过智能技术生成

文章目录

此文涉及公式推导，需要参考这篇文章： Stable Diffusion扩散模型推导公式的基础知识

1、Diffusion的整体过程

扩散过程是模拟图像加噪的逆向过程，也就是实现去噪的过程，
加噪是如下图从右到左的过程，称为反向扩散过程，
去噪是从左往右的过程，称为前向扩散过程，

在这里插入图片描述

2、加噪过程

加噪过程如下图，下一时刻的图像是在上一时刻图像的基础上加入噪音生成的，
图中公式的含义： $x_t$ 表示 t 时刻的图像， $\epsilon_t$ 表示 t 时刻生成的随机分布的噪声图像， $\beta_t$ 表示 t 时刻指定的常数，不同时刻的 $\beta_t$ 不同，随着时间 t 的递增而增加，但需要注意 $\beta_t$ 的值始终是比较小的，因为要让图像的数值占较大的比例，

在这里插入图片描述

2.1 加噪的具体细节

A、将图像 $x$ 像素值映射到[-1,1]之间

图像加噪不是在原有图像上进行加噪的，而是通过把图片的每个像素的值转换为-1到1之间，比如像素的值是 $x$ ，则需要经过下面公式的处理 $\frac{x}{255}\times2-1$ ，转换到范围是-1到1之间，

代码：

def get_transform():
    class RescaleChannels(object):
        def __call__(self, sample):
            return 2 * sample - 1

    return torchvision.transforms.Compose([torchvision.transforms.ToTensor(), RescaleChannels()])

B、生成一张尺寸相同的噪声图片，像素值服从标准正态分布
$\epsilon \sim N(0,1)$

x = {Tensor:(2, 3, 32, 32)}
noise = torch.randn_like(x)

C、 $\alpha$ 和 $\beta$
每个时刻的 $\beta_t$ 都各不相同，0 < $\beta_t$ < 1，因为 $\beta_t$ 是作为权重存在的，且 $\beta_1< \beta_2< \beta_3< \beta_{T-1}< \beta_T$ ，

代码：

betas = generate_linear_schedule(
    args.num_timesteps,
    args.schedule_low * 1000 / args.num_timesteps,
    args.schedule_high * 1000 / args.num_timesteps)

$\beta$ 的取值代码，比如 $\beta_1$ 取值low， $\beta_T$ 取值high，

# T:1000 Low/β1: 0.0001 high/βT: 0.02
def generate_linear_schedule(T, low, high):
    return np.linspace(low, high, T)

$\alpha_t=1-\beta_t$ ，

alphas = 1.0 - betas
alphas_cumprod = np.cumprod(alphas)
to_torch = partial(torch.tensor, dtype=torch.float32)
self.registerbuffer("betas", totorch(betas))
self.registerbuffer("alphas", totorch(alphas))
self.register_buffer("alphas_cumprod", to_torch(alphas_cumprod))
self.register_buffer("sqrt_alphas_cumpnod", to_torch(np.sqrt(alphas_cumprod)))
self.register_buffer("sart_one_minus_alphas_cumprod", to_torch(np.sqrt(1 - alphas_cumprod)))
self.registerbuffer("reciprocal sart_alphas", totorch(np.sart(1 / alphas)))
self.register_buffer("remove_noise_coeff", to_torch(betas / np.sqrt(1 - alphas_cumprod)))
self.registerbuffer("siqma"，to_torch(np.sqrt(betas)))

D、任一时刻的图像 $x_t$ 都可以由原图像 $x_0$ 直接生成(可以由含 $x_0$ 的公式直接表示)

$x_t$ 与 $x_0$ 的关系： $x_t=\sqrt{1-\overline{\alpha_t}}\epsilon+\sqrt{\overline{\alpha_t}}x_0$ ， $\alpha_t=1-\beta_t$ ， $\overline{\alpha_t}=\alpha_t\alpha_{t-1}...\alpha_2\alpha_1$

由上式可知， $\beta_t$ 是常数，则 $\alpha_t$ ， $\sqrt{1-\overline{\alpha_t}}$ ， $\sqrt{\overline{\alpha_t}}$ 也是常数， $\epsilon$ 也是已知的，所以可以直接由 $x_0$ 生成 $x_t$ ，

def perturb_x(self, x, t, noise):
    return (extract(self.sqrt_alphas_cumprod, t, x.shape) * x +
            extract(self.sqrt_one_minus_alphas_cumprod, t, x.shape) * noise)

def extract(a, t, x_shape):
    b, *_ = t.shape
    out = a.gather(-1, t)
    return out.reshape(b, *((1,) * (len(x_shape) - 1)))

2.2 加噪过程的公式推导

加噪过程：

在这里插入图片描述

加噪过程的公式：

在这里插入图片描述

总结：

在这里插入图片描述

3、去噪过程

去噪是加噪的逆过程，由时间T时刻的图像逐渐去噪到时刻为0的图像，
下面介绍一下由时刻为T的图像 $x_T$ 去噪到时刻为T-1的图像 $x_{T-1}$ ，输入为时刻为t的图像 $x_t$ 和时刻t，喂给Unet网络生成 $\epsilon_\theta$ ，其中 $\theta$ 是Unet网络的所有参数，然后由下图中的 ${\bf x}_{t-1}$ 的公式即可生成时刻为t-1的图像 ${\bf x}_{t-1}$ ，

在这里插入图片描述

3.1 图像概率分布

去噪过程的2个假设:
(1)加噪过程看作马尔可夫链，假设去噪过程也是马尔可夫链，
(2)假设去噪过程是高斯分布，

在这里插入图片描述

假设数据集中有100张图片，每张图片的shape是4x4x3，假设每张图片的每个channel的每个像素点都服从正态分布， $x_{t-1}$ 的正态分布的均值 $\mu$ 和方差 $\sigma^2$ 只和 $x_t$ 有关，已知在t时刻的图像，求t-1时刻的图像，

在这里插入图片描述

1、因为均值和方差 $\mu(x_t)$ ， $\sigma^2(x_t)$ 无法求出，所以我们决定让网络来帮我们预测均值和方差，
2、因为每一个像素都有自己的分布，都要预测出一个均值和方差，所以网络输出的尺寸需要和图像尺寸一致，所以我们选用 UNet 网络，
3、作者在论文中表示，方差并不会影响结果，所以网络只要预测均值就可以了，也就是说UNet网络输出只需要输出均值就可以了，

4、损失函数

在这里插入图片描述
我们要求极大似然的最大值，需要对 $\mu$ 和 $\sigma$ 求导，但是对于扩散的过程是不可行的，如下面的公式无法求出，因为 $x_1:x_T$ 的不同组合所求出的 $x_0$ 的值也不同，
$p(x_0)=\int_{x_1:x_T}p(x_0|x_1:x_T)d_{x_1:x_T}$

为了实现对极大似然函数的求导，把对极大似然求导的问题转换为ELBO :Evidence Lower Bound

在这里插入图片描述

对ELBO的公式继续进行化简，

在这里插入图片描述

首先来看 $q(x_{t-1}|x_t,x_0)$ 表示已知 $x_0$ 和 $x_t$ 的情况下推导 $x_{t-1}$ ，这个公式是可以求解的，如上图公式推导； $p_{\theta}(x_{t-1}|x_t)$ 需要使用 Unet 预测出该分布的均值，

$q(x_{t-1}|x_t,x_0)$ 公式的推导如下：

在这里插入图片描述

综上可知，UNet是在预测下面的公式，下面的公式中除了 $\epsilon$ 之外都是已知量，所以UNet网络实际预测的就是 $\epsilon$ ，
在这里插入图片描述

5、伪代码过程

下图是训练阶段的伪代码，第1行和第6行表示第2行到第5行的代码一直在循环，直到模型收敛，
第2行：从数据集中筛选出一张图像，即为 $\bf{x}_0$ ,
第3行：从0到 $T$ 的均匀分布中筛选出 $t$ ，源码中 $T$ 的范围设为1000，
第4行：从均值为0，方差为1的标准正态分布中采样出 $\epsilon$ ， $\epsilon$ 的size和 $\bf{x}_0$ 的size是相同的，
第5行： $x_t$ 和从0到 $T$ 的均匀分布中筛选出的 $t$ 喂给Unet，输出 $\epsilon_\theta$ ，和第4行代码采样出的 $\epsilon$ ， $||\epsilon-\epsilon_\theta(...)||^2$ 的均方差作为损失函数，对这个损失函数求梯度进行参数更新，参数是Unet所有参数的集合 $\theta$ ，

在这里插入图片描述

下图是推导/采样/生成图片阶段的伪代码，

第1行：从随机分布中采样一个 ${\bf x}_T$ ，
第2行：遍历从 $T$ 到1，
第3行：从随机分布中采样一个 $\bf{z}$ ，
第4行：已知 $\bf{z}$ 、 $\alpha_t$ 、 $\sigma_t$ ， $\epsilon_\theta$ 是Unet网络生成的，就可以得到 ${\bf x}_{t-1}$
循环2-4行代码，

在这里插入图片描述

参考：
1、CSDN链接：链接
2、哔哩视频：https://www.bilibili.com/video/BV1ju4y1x7L4/?p=5&spm_id_from=pageDriver
3、论文Denoising Diffusion Probabilistic Models：https://arxiv.org/pdf/2006.11239.pdf

全息数据

关注

24
点赞
踩
32

收藏

觉得还不错? 一键收藏
1
评论
Stable Diffusion扩散模型【详解】小白也能看懂！！

2、因为每一个像素都有自己的分布，都要预测出一个均值和方差，所以网络输出的尺寸需要和图像尺寸一致，所以我们选用 Unet 网络，假设数据集中有100张图片，每张图片的shape是4x4x3，假设每张图片的每个channel的每个像素点都服从正态分布，图像加噪不是在原有图像上进行加噪的，而是通过把图片的每个像素的值转换为-1到1之间，比如像素的值是。去噪是加噪的逆过程，由时间T时刻的图像逐渐去噪到时刻为0的图像，求导，但是对于扩散的过程是不可行的，如下面的公式无法求出，因为。
复制链接

扫一扫