Diffusion Model（3）：训练目标以及训练过程

MaZhe丶

已于 2022-10-24 21:23:12 修改

阅读量2.1k

点赞数 2

分类专栏：扩散模型深度学习文章标签： 1024程序员节人工智能深度学习

于 2022-10-24 21:20:14 首次发布

本文链接：https://blog.csdn.net/weixin_42363544/article/details/127501196

版权

深度学习同时被 2 个专栏收录

6 篇文章 2 订阅

订阅专栏

扩散模型

3 篇文章 3 订阅

订阅专栏

文章目录

观看本文之前建议先观看以下两篇文章：

Training Loss

训练目标

首先回顾一下我们的问题，我们在逆向降噪过程中由于没办法得到 $q(\mathbf{x}_{t-1} \vert \mathbf{x}_{t})$ ，因此我们定义了一个 需要学习的模型模型 $p_\theta(\mathbf{x}_{t-1} \vert \mathbf{x}_t)$ 来对其进行近似，并且在训练阶段我们可以利用后验 $q(\mathbf{x}_{t-1}\vert \mathbf{x}_t,\mathbf{x}_0)$ 来对 $p_\theta$ 进行优化。

那么现在的问题是我们如何 $p_\theta$ 优化得到理想的 $\boldsymbol{\mu}_\theta$ 和 $\boldsymbol{\Sigma}_\theta$ ？类似于 VAE ，我们可以最小化在真实数据期望下，模型预测分布的负对数似然，即最小化预测 $p_{\mathrm{data}}=q({\mathbf{x}_0})$ 和 $p_{\theta}(\mathbf{x}_0)$ 的交叉熵：
$\begin{equation} \mathcal{L}=\mathbb{E}_{\mathbf{x}_{0} \sim q\left(\mathbf{x}_{0}\right)}\left[-\log p_{\theta}\left(\mathbf{x}_{0}\right)\right] \end{equation}$
但是，我们没法得到 $p_\theta(\mathbf{x}_0)$ 的表达式，因此公式1的交叉熵是没法计算的。那么可以借助公式Diffusion Model（2）：前向扩散过程和逆向降噪过程
2-6 进行一些数学推导。将公式1中的 $p_\theta(\mathbf{x}_0)$ 转化为已知的项：
$\begin{equation} \begin{aligned} \mathcal{L} &=-\mathbb{E}_{q\left(\mathbf{x}_{0}\right)} \log p_{\theta}\left(\mathbf{x}_{0}\right) \\ &=-\mathbb{E}_{q\left(\mathbf{x}_{0}\right)} \log \left(\int p_{\theta}\left(\mathbf{x}_{0: T}\right) d \mathbf{x}_{1: T}\right) \\ &=-\mathbb{E}_{q\left(\mathbf{x}_{0}\right)} \log \left(\int q\left(\mathbf{x}_{1: T} \vert \mathbf{x}_{0}\right) \frac{p_{\theta}\left(\mathbf{x}_{0: T}\right)}{q\left(\mathbf{x}_{1: T} \vert \mathbf{x}_{0}\right)} d \mathbf{x}_{1: T}\right) \\ &=-\mathbb{E}_{q\left(\mathbf{x}_{0}\right)} \log \left(\mathbb{E}_{q\left(\mathbf{x}_{1: T} \vert \mathbf{x}_{0}\right)} \frac{p_{\theta}\left(\mathbf{x}_{0: T}\right)}{q\left(\mathbf{x}_{1: T} \vert \mathbf{x}_{0}\right)}\right) \\ & \leq-\mathbb{E}_{q\left(\mathbf{x}_{0: T}\right)} \log \frac{p_{\theta}\left(\mathbf{x}_{0: T}\right)}{q\left(\mathbf{x}_{1: T} \vert \mathbf{x}_{0}\right)} \\ &=\mathbb{E}_{q\left(\mathbf{x}_{0: T}\right)}\left[\log \frac{q\left(\mathbf{x}_{1: T} \vert \mathbf{x}_{0}\right)}{p_{\theta}\left(\mathbf{x}_{0: T}\right)}\right]=\mathcal{L}_{\mathrm{VLB}} \end{aligned} \end{equation}$
上式中 $q(\mathbf{x}_0)$ 是真实的数据分布，而 $p_\theta(\mathbf{x}_0)$ 是模型，从第四行到第五行使用了Jensen不等式 $\log \mathbb{E}[f(x)] \leq \mathbb{E}[\log f(x)]$ 并结合了对 $q(\mathbf{x}_0)$ 的期望和对 $q(\mathbf{x}_{1:T} \vert \mathbf{x}_0)$ 的期望。

为了最小化这个损失，结合公式2可以将其转化为最小化其上界 $\mathcal{L}_{\mathrm{VLB}}$ ：
$\begin{equation} \begin{array}{l} \mathcal{L}_{\mathrm{VLB}}=\mathbb{E}_{q\left(\mathbf{x}_{0: T}\right)}\left[\log \frac{q\left(\mathbf{x}_{1: T} \vert \mathbf{x}_{0}\right)}{p_{\theta}\left(\mathbf{x}_{0: T}\right)}\right]\\ =\mathbb{E}_{q}\left[\log \frac{\prod_{t=1}^{T} q\left(\mathbf{x}_{t} \vert \mathbf{x}_{t-1}\right)}{p_{\theta}\left(\mathbf{x}_{T}\right) \prod_{t=1}^{T} p_{\theta}\left(\mathbf{x}_{t-1} \vert \mathbf{x}_{t}\right)}\right]\\ =\mathbb{E}_{q}\left[-\log p_{\theta}\left(\mathbf{x}_{T}\right)+\sum_{t=1}^{T} \log \frac{q\left(\mathbf{x}_{t} \vert \mathbf{x}_{t-1}\right)}{p_{\theta}\left(\mathbf{x}_{t-1} \vert \mathbf{x}_{t}\right)}\right]\\ =\mathbb{E}_{q}\left[-\log p_{\theta}\left(\mathbf{x}_{T}\right)+\sum_{t=2}^{T} \log \frac{\color{blue}q(\mathbf{x}_{t} \vert \mathbf{x}_{t-1})}{p_{\theta}\left(\mathbf{x}_{t-1} \vert \mathbf{x}_{t}\right)}+\log \frac{q\left(\mathbf{x}_{1} \vert \mathbf{x}_{0}\right)}{p_{\theta}\left(\mathbf{x}_{0} \vert \mathbf{x}_{1}\right)}\right]\\ =\mathbb{E}_{q}\left[-\log p_{\theta}\left(\mathbf{x}_{T}\right)+\sum_{t=2}^{T} \log \left(\frac{\color{blue}q(\mathbf{x}_{t-1} \vert \mathbf{x}_{t}, \mathbf{x}_{0})}{p_{\theta}\left(\mathbf{x}_{t-1} \vert \mathbf{x}_{t}\right)} \cdot \frac{\color{blue}q(\mathbf{x}_{t} \vert \mathbf{x}_{0})}{\color{blue}q(\mathbf{x}_{t-1} \vert \mathbf{x}_{0})}\right)+\log \frac{q\left(\mathbf{x}_{1} \vert \mathbf{x}_{0}\right)}{p_{\theta}\left(\mathbf{x}_{0} \vert \mathbf{x}_{1}\right)}\right]\\ =\mathbb{E}_{q}\left[-\log p_{\theta}\left(\mathbf{x}_{T}\right)+\sum_{t=2}^{T} \log \frac{q\left(\mathbf{x}_{t-1} \vert \mathbf{x}_{t}, \mathbf{x}_{0}\right)}{p_{\theta}\left(\mathbf{x}_{t-1} \vert \mathbf{x}_{t}\right)}+\sum_{t=2}^{T} \log \frac{q\left(\mathbf{x}_{t} \vert \mathbf{x}_{0}\right)}{q\left(\mathbf{x}_{t-1} \vert \mathbf{x}_{0}\right)}+\log \frac{q\left(\mathbf{x}_{1} \vert \mathbf{x}_{0}\right)}{p_{\theta}\left(\mathbf{x}_{0} \vert \mathbf{x}_{1}\right)}\right]\\ =\mathbb{E}_{q}\left[-\log p_{\theta}\left(\mathbf{x}_{T}\right)+\sum_{t=2}^{T} \log \frac{q\left(\mathbf{x}_{t-1} \vert \mathbf{x}_{t}, \mathbf{x}_{0}\right)}{p_{\theta}\left(\mathbf{x}_{t-1} \vert \mathbf{x}_{t}\right)}+\log \frac{q\left(\mathbf{x}_{T} \vert \mathbf{x}_{0}\right)}{q\left(\mathbf{x}_{1} \vert \mathbf{x}_{0}\right)}+\log \frac{q\left(\mathbf{x}_{1} \vert \mathbf{x}_{0}\right)}{p_{\theta}\left(\mathbf{x}_{0} \vert \mathbf{x}_{1}\right)}\right]\\ =\mathbb{E}_{q}\left[\log \frac{q\left(\mathbf{x}_{T} \vert \mathbf{x}_{0}\right)}{p_{\theta}\left(\mathbf{x}_{T}\right)}+\sum_{t=2}^{T} \log \frac{q\left(\mathbf{x}_{t-1} \vert \mathbf{x}_{t}, \mathbf{x}_{0}\right)}{p_{\theta}\left(\mathbf{x}_{t-1} \vert \mathbf{x}_{t}\right)}-\log p_{\theta}\left(\mathbf{x}_{0} \vert \mathbf{x}_{1}\right)\right]\\ =\mathbb{E}_{q}[\underbrace{-\log p_{\theta}\left(\mathbf{x}_{0} \vert \mathbf{x}_{1}\right)}_{L_{0}}]+\sum_{t=2}^{T} \underbrace{D_{\mathrm{KL}}\left(q\left(\mathbf{x}_{t-1} \vert \mathbf{x}_{t}, \mathbf{x}_{0}\right) \| p_{\theta}\left(\mathbf{x}_{t-1} \vert \mathbf{x}_{t}\right)\right)}_{L_{t-1}}+\underbrace{D_{\mathrm{KL}}\left(q\left(\mathbf{x}_{T} \vert \mathbf{x}_{0}\right) \| p_{\theta}\left(\mathbf{x}_{T}\right)\right)}_{L_{T}} \end{array} \end{equation}$
上述式子中：

从第三行到第四行，是将t=1的情况与总的求和拆开
从第四行到第五行，使用了前向过程的马尔科夫过程结合贝叶斯公式Diffusion Model（1）：预备知识1-8

$\begin{equation} \begin{aligned} q(\mathbf{x}_{t} \vert \mathbf{x}_{t-1}) &= q(\mathbf{x}_{t} \vert \mathbf{x}_{t-1}, \mathbf{x}_0) = \frac{q(\mathbf{x}_t, \mathbf{x}_{t-1} \vert \mathbf{x}_0)}{q(\mathbf{x}_{t-1} \vert \mathbf{x}_0)} = {\color{red}q(\mathbf{x}_{t-1} \vert \mathbf{x}_{t}, \mathbf{x}_0)} \cdot \frac{q(\mathbf{x}_t \vert \mathbf{x}_0)}{q(\mathbf{x}_{t-1}|\mathbf{x}_0)} \end{aligned} \end{equation}$

从第六行到第七行，将对数和转化为了乘积的形式，然后消去相同的分子和分母
第七行到第八行，首先将最后两项的求和转化为乘积然后消除 $q(\mathbf{x}_1 \vert \mathbf{x}_0)$ ，然后将第一项放在分母上，将原来的分母变为减法
从第八行到第九行，使用了KL散度的公式 $D_{KL}(q(\mathbf{x}) || p(\mathbf{x}))=\mathbb{E}_{q}[\log\frac{q(\mathbf{x})}{p(\mathbf{x})}]$

我们可以得到 $\mathcal{L}_{VLB}$ 实际上是由一个熵（ $L_0$ ）以及多个KL散度（ $(L_t,t\in{1,2,3,...,T})$ ）构成。其中最后一项 $L_T$ 中的 $\mathbf{x}_t$ 和 $\mathbf{x}_0$ 分别是数据分布和先验分布，都是固定的，因此它是一个常数，在最小化时可以忽略。转而去研究 $L_0和L_t, t\in{1,2,3,...,T-1}$ 。

$L_t$ 的计算

首先来考虑公式2中比较复杂的 $L_t$ 。

我们的模型 $p_\theta(\mathbf{x}_{t-1} \vert \mathbf{x}_t) = \mathcal{N}\left(\mathbf{x}_{t-1}; \mu_{\theta}(\mathbf{x}_t, t), \Sigma_\theta(\mathbf{x}_t, t) \right)$ 。

根据公式Diffusion Model（2）：前向扩散过程和逆向降噪过程
2-11，我们知道,对于平均值 $\mu_{\theta}(\mathbf{x}_t,t)$ 在给定 $\mathbf{x}_t$ 和 $t$ 的情况下，我们期望它接近于 $\tilde{\mu}_t(\mathbf{x}_t, \mathbf{x}_0)=\frac{1}{{\sqrt{\alpha_t}}}\big(\mathbf{x}_t - \frac{\beta_t}{\sqrt{(1-\bar{\alpha}_{t})}} z_t \big)$ 。

因此我们可以通过重参数化，通过学习高斯噪声 $z_\theta(\mathbf{x}_t,t)$ 来接近于 $z_t$ ：
$\begin{equation} \boldsymbol{\mu}_{\theta}\left(\mathbf{x}_{t}, t\right)=\frac{1}{\sqrt{\alpha_{t}}}\left(\mathbf{x}_{t}-\frac{\beta_{t}}{\sqrt{1-\bar{\alpha}_{t}}} \mathbf{z}_{\theta}\left(\mathbf{x}_{t}, t\right)\right) \end{equation}$
这个过程可以归结为我们的模型实际上学会了估计真正的逆向过程中的噪声。

对于方差 $\Sigma_\theta(\mathbf{x}_t, t)$ 的处理，DDPM (Ho et al 2020)将其设置成了 $\sigma_t^2\mathbf{I}$ ,其中 $\sigma_t^2=\beta_t$ 或者 $\sigma_t^2=\tilde{\beta}_t= \frac{1-\bar{\alpha}_{t-1}}{1 - \bar{\alpha}_t} \beta_t$ 。当然此项也可以通过模型学习，此处只是为了简化，并不是唯一的。

现在，结合KL散度的公式Diffusion Model（1）：预备知识1-10我们可以写出模型 $p_\theta(\mathbf{x}_{t-1} \vert \mathbf{x}_t) = \mathcal{N}(\mathbf{x}_{t-1}; {\color{green}\mu_{\theta}(\mathbf{x}_t, t)=\frac{1}{\sqrt{\alpha_t}}(\mathbf{x}_t - \frac{\beta_t}{\sqrt{1-\bar{\alpha}_t}}z_\theta(\mathbf{x}_t,t))}, \Sigma_\theta(\mathbf{x}_t, t) = \sigma^2_t \mathbf{I})$ 关于 $q(\mathbf{x}_{t-1} \vert \mathbf{x}_t) =q(\mathbf{x}_{t-1} \vert \mathbf{x}_t, \mathbf{x}_0) = \mathcal{N}(\mathbf{x}_{t-1}; {\color{blue}\tilde{\mu}_t(\mathbf{x}_t, \mathbf{x}_0)=\frac{1}{\sqrt{\alpha_t}}(\mathbf{x}_t - \frac{\beta_t}{\sqrt{1-\bar{\alpha}_t}}z_t)}, \tilde{\Sigma}_t =\bar{\beta}_t\mathbf{I})$ 的KL散度：
$\begin{equation} \begin{array}{l} L_{t}=\mathbb{E}_{\mathbf{x}_{0}, \mathbf{z}}\left[\frac{1}{2\left\|\boldsymbol{\Sigma}_{\theta}\left(\mathbf{x}_{t}, t\right)\right\|_{2}^{2}}\left\| \textcolor{blue}{ \tilde{\boldsymbol{\mu}}_{t}\left(\mathbf{x}_{t}, \mathbf{x}_{0}\right)}-\textcolor{green}{\boldsymbol{\mu}_{\theta}\left(\mathbf{x}_{t}, t\right)}\right\|^{2}\right]\\ =\mathbb{E}_{\mathbf{x}_{0}, \mathbf{z}}\left[\frac{1}{2\left\|\mathbf{\Sigma}_{\theta}\right\|_{2}^{2}}\left\|\textcolor{blue}{\frac{1}{\sqrt{\alpha_{t}}}\left(\mathbf{x}_{t}-\frac{\beta_{t}}{\sqrt{1-\bar{\alpha}_{t}}} \mathbf{z}_{t}\right)}-\textcolor{green}{\frac{1}{\sqrt{\alpha_{t}}}\left(\mathbf{x}_{t}-\frac{\beta_{t}}{\sqrt{1-\bar{\alpha}_{t}}} \mathbf{z}_{\theta}\left(\mathbf{x}_{t}, t\right)\right)}\right\|^{2}\right]\\ =\mathbb{E}_{\mathbf{x}_{0}, \mathbf{z}}\left[\frac{\beta_{t}^{2}}{2 \alpha_{t}\left(1-\bar{\alpha}_{t}\right)\left\|\mathbf{\Sigma}_{\theta}\right\|_{2}^{2}}\left\|\mathbf{z}_{t}-\mathbf{z}_{\theta}\left(\mathbf{x}_{t}, t\right)\right\|^{2}\right]\\ =\mathbb{E}_{\mathbf{x}_{0}, \mathbf{z}}\left[\frac{\beta_{t}^{2}}{2 \alpha_{t}\left(1-\bar{\alpha}_{t}\right)\left\|\mathbf{\Sigma}_{\theta}\right\|_{2}^{2}}\left\|\mathbf{z}_{t}-\mathbf{z}_{\theta}\left(\sqrt{\bar{\alpha}_{t}} \mathbf{x}_{0}+\sqrt{1-\bar{\alpha}_{t}} \mathbf{z}_{t}, t\right)\right\|^{2}\right] \end{array} \end{equation}$
我们可以发现， $L_t$ 的训练目标实际上是在使用MSE最小化两个高斯噪声 $z_t$ 和 $z_\theta(\mathbf{x}_t,t)$ 。

在训练中发现上述带有加权（ $\frac{\beta_{t}^{2}}{2 \alpha_{t}\left(1-\bar{\alpha}_{t}\right)\left\|\mathbf{\Sigma}_{\theta}\right\|_{2}^{2}}$ ）的MSE Loss不太稳定，因此DDPM (Ho et al 2020)使用了不带权重项的简化损失。
$\begin{equation} L_{t}^{\text {simple }}=\mathbb{E}_{\mathbf{x}_{0}, \mathbf{z}_{t}}\left[\left\|\mathbf{z}_{t}-\mathbf{z}_{\theta}\left(\sqrt{\bar{\alpha}_{t}} \mathbf{x}_{0}+\sqrt{1-\bar{\alpha}_{t}} \mathbf{z}_{t}, t\right)\right\|^{2}\right]\\ L_{\text {simple }}=L_{t}^{\text {simple }} + C \end{equation}$
其中的 $C$ 是一项不依赖于 $\theta$ 的常数。

$L_0$ 的计算

然后来考虑 $L_0$ 的计算。

已知 $L_0=-\mathbb{E}_{\mathbf{x}_0,\mathbf{x}_1}\log(p_\theta(\mathbf{x}_0 \vert \mathbf{x}_1))$ ，而 $p_\theta(\mathbf{x}_0 \vert \mathbf{x}_1)=\mathcal{N}(\mu_\theta(\mathbf{x}_1),1,\sigma_1^2\mathbf{I})$ 。因此 $L_0$ 实际上是一个多元高斯分布的负对数似然期望，即其熵。多元高斯分布的熵仅与其协方差有关，即 $L_0$ 仅与 $\sigma_1^2\mathbf{I}$ 有关， $L_0$ 是一个常数。

然而，论文DDPM指出，一般而言， $\mathbf{x}_0$ 的分布实际上是离散的，而不是连续的。比如图片数据，像素值取值必须是整数，归一化到 $[- 1, 1]$ 后，依然是离散的点。Diffusion前向过程的第一步实际上是为离散数据添加噪声。那么，逆Diffusion的最后一步，即从 $\mathbf{x}_1$ 到 $\mathbf{x}_0$ ，也不能被简单地看作从 $\mathcal{N}(\boldsymbol{\mu}_\theta(\mathbf{x}_1, 1), \sigma_1^2\mathbf{I})$ 中采样，而是在从 $\mathcal{N}(\boldsymbol{\mu}_\theta(\mathbf{x}_1, 1), \sigma_1^2\mathbf{I})$ 采样的基础上再加上离散化操作。 $L_0$ 也不再是一个常数，而是一个与 $\mu_\theta(\mathbf{x}_1, 1)$ 相关的积分，其具体表达式可以参考DDPM (Ho et al 2020)的Sec3.3。在忽略 $\sigma_1^2$ 和边缘效应后， $L_0$ 的取值可以被 $\mathcal{N}(\boldsymbol{\mu}_\theta(\mathbf{x}_1, 1), \sigma_1^2\mathbf{I})$ 的密度函数与离散时的分块大小(bin width)相乘所拟合。

另外值得一提的是，逆Diffusion的最后一步，DDPM直接取 $\mu_\theta(\mathbf{x}_1, 1)$ 作为 $\mathbf{x}_0$ 。

在这里插入图片描述

The overall training and sampling algorithms

在这里插入图片描述

训练过程

训练时，分别从 $q(\mathbf{x}_0)$ 、 $Uniform({1,...,T})$ 、 $\mathcal{N}(\mathbf{0},\textbf{I})$ 中采样得到 $\mathbf{x}_0$ ， $t$ 和 $\epsilon$ （这里的 $\epsilon$ 就是前面说的 $z$ ），利用公式Diffusion Model（2）：前向扩散过程和逆向降噪过程
2-4计算得到 $\mathbf{x}_t=\sqrt{\bar{\alpha}_{t}} \mathbf{x}_{0}+\sqrt{1-\bar{\alpha}_{t}} \mathbf{z}$ ，将 $\mathbf{x}_t$ 和 $t$ 送入网络，预测得到一个噪声。结合公式7最小化预测噪声和真实采样的 $\epsilon$ 之间的距离。重复这一过程直到网络收敛。

采样过程

采样时，需要从 $\mathbf{x}_T$ 一步一步的变回 $\mathbf{x}_0$ ，其中的每一步都包含三个操作：

将 $\mathbf{x}_t$ 和 $t$ 送入网络，预测得到噪声 $\epsilon$
利用估计的噪声 $\epsilon$ 和 $\mathbf{x}_t$ ，计算 $\mu_{\theta}=\frac{1}{\sqrt{\alpha_t}}(\mathbf{x}_t-\frac{\beta_t}{\sqrt{1-\bar{\alpha}_t}}\epsilon)$
如果 $t > 1$ ，需要从 $\mathcal{N}(\mu_\theta, \sigma_t^2\mathbf{I})$ 中采样得到 $\mathbf{x}_{t-1}$ ，利用重参数化技巧，可以将采样过程转换为首先采样 $z\in\mathcal{N}(\mathbf{0},\textbf{I})$ ，然后计算 $x_{t-1}=\mu_\theta+\sigma_tz$ 。如果 $t = 1$ ，直接令 $\mathbf{x}_0=\mu_\theta$

网络中的参数选择

在前向扩散过程中，需要确定的超参数有 $\beta_t$ 以及总的步数 $T$ 。在前向扩散过程中，其值通常会增加。

在 DDPM (Ho et al 2020)中，前向扩散过程中的方差 $\beta_t$ 被设置为从 $\beta_1=10^{-4}$ 到 $\beta_T=0.02$ 线性增加。与 $[-1,1] $之间的归一化图像像素值相比，它们相对较小。
在Nichol & Dhariwal (2021) 中，提出了可以使用基于余弦的方差表。调度函数的选择可以是任意的，只要它在训练过程的中间提供一个接近线性的下降，以及在 $t = 0$ 和 $t = T$ 附近的细微变化。

$\beta_{t}=\operatorname{clip}\left(1-\frac{\bar{\alpha}_{t}}{\bar{\alpha}_{t-1}}, 0.999\right) \quad \bar{\alpha}_{t}=\frac{f(t)}{f(0)} \quad \text { where } f(t)=\cos \left(\frac{t / T+s}{1+s} \cdot \frac{\pi}{2}\right)$

在这里插入图片描述

注意此图的纵坐标是 $\bar{\alpha}_t=1-\beta_t$ 而我们讨论的是 $\beta_t$ 的一个取值。

对于逆向降噪过程中，我们需要选择一个网络来预测一个噪声来从 $\mathbf{x}_t$ 得到 $\mathbf{x}_{t-1}$ （参照采样的过程）。在这个过程中唯一的要求是我们需要保证输入和输出的维度是一样的。比如输入是 $1\times256\times256$ 那么输出也需要是 $1\times256\times256$ 。因此此处可以选择U-Net。
在这里插入图片描述
References:

MaZhe丶

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
Diffusion Model（3）：训练目标以及训练过程

首先回顾一下我们的问题，我们在逆向降噪过程中由于没办法得到q(xt−1∣xt)q(\mathbf{x}_{t-1} \vert \mathbf{x}_{t})q(xt−1∣xt)，因此我们定义了一个需要学习的模型模型 pθ(xt−1∣xt)p_\theta(\mathbf{x}_{t-1} \vert \mathbf{x}_t)pθ(xt−1∣xt)来对其进行近似，并且在训练阶段我们可以利用后验q(xt−1∣xt,x0)q(\mathbf{x}_{t-1}\vert \mathbf{x}_t
复制链接

扫一扫