DDPM对于噪声的理解

最新推荐文章于 2024-10-03 14:54:57 发布

HGGshiwo

最新推荐文章于 2024-10-03 14:54:57 发布

阅读量1k

点赞数 24

文章标签：人工智能机器学习

本文链接：https://blog.csdn.net/HGGshiwo/article/details/135078961

版权

关于DDPM解释的速览：

X0是原始图像，Xt是加了t步噪声的图像。所有的Xt可以由X0和一个随机噪声表示：

$\begin{aligned} \mathbf{x}_t & = \sqrt{\alpha_t}\mathbf{x}_{t-1} + \sqrt{1 - \alpha_t}\mathbf{\epsilon}_{t-1} & \text{ ;where } \mathbf{\epsilon}_{t-1}, \mathbf{\epsilon}_{t-2}, \dots \sim \mathcal{N}(\mathbf{0}, \mathbf{I}) \\ & = \sqrt{\alpha_t}(\sqrt{\alpha_{t-1}}\mathbf{x}_{t-2} + \sqrt{1 - \alpha_{t-1}}\mathbf{\epsilon}_{t-2}) + \sqrt{1 - \alpha_t}\mathbf{\epsilon}_{t-1} \\ & = \sqrt{\alpha_t \alpha_{t-1}} \mathbf{x}_{t-2} + \sqrt{\sqrt {\alpha_t-\alpha_t \alpha_{t-1}}^2+\sqrt{1-\alpha_t }^2} \bar{\mathbf{\epsilon}}_{t-2} & \text{ ;where } \bar{\mathbf{\epsilon}}_{t-2} \text{ merges two Gaussians (*).} \\ & = \sqrt{\alpha_t \alpha_{t-1}} \mathbf{x}_{t-2} + \sqrt{1 - \alpha_t \alpha_{t-1}} \bar{\mathbf{\epsilon}}_{t-2} \\ &= \dots \\ &= \sqrt{\bar{\alpha}_t}\mathbf{x}_0 + \sqrt{1 - \bar{\alpha}_t}\mathbf{\epsilon} \end{aligned}\\$

已知Xt，Xt-1的分布如下（可以通过贝叶斯公式推导）：

$\begin{aligned} q(\mathbf{x}_{t-1} \vert \mathbf{x}_t, \mathbf{x}_0) &= q(\mathbf{x}_t \vert \mathbf{x}_{t-1}, \mathbf{x}_0) \frac{ q(\mathbf{x}_{t-1} \vert \mathbf{x}_0) }{ q(\mathbf{x}_t \vert \mathbf{x}_0) } \\ &\propto \exp \Big(-\frac{1}{2} \big(\frac{(\mathbf{x}_t - \sqrt{\alpha_t} \mathbf{x}_{t-1})^2}{\beta_t} + \frac{(\mathbf{x}_{t-1} - \sqrt{\bar{\alpha}_{t-1}} \mathbf{x}_0)^2}{1-\bar{\alpha}_{t-1}} - \frac{(\mathbf{x}_t - \sqrt{\bar{\alpha}_t} \mathbf{x}_0)^2}{1-\bar{\alpha}_t} \big) \Big) \\ &= \exp \Big(-\frac{1}{2} \big(\frac{\mathbf{x}_t^2 - 2\sqrt{\alpha_t} \mathbf{x}_t \color{blue}{\mathbf{x}_{t-1}} \color{black}{+ \alpha_t} \color{red}{\mathbf{x}_{t-1}^2} }{\beta_t} + \frac{ \color{red}{\mathbf{x}_{t-1}^2} \color{black}{- 2 \sqrt{\bar{\alpha}_{t-1}} \mathbf{x}_0} \color{blue}{\mathbf{x}_{t-1}} \color{black}{+ \bar{\alpha}_{t-1} \mathbf{x}_0^2} }{1-\bar{\alpha}_{t-1}} - \frac{(\mathbf{x}_t - \sqrt{\bar{\alpha}_t} \mathbf{x}_0)^2}{1-\bar{\alpha}_t} \big) \Big) \\ &= \exp\Big( -\frac{1}{2} \big( \color{red}{(\frac{\alpha_t}{\beta_t} + \frac{1}{1 - \bar{\alpha}_{t-1}})} \mathbf{x}_{t-1}^2 - \color{blue}{(\frac{2\sqrt{\alpha_t}}{\beta_t} \mathbf{x}_t + \frac{2\sqrt{\bar{\alpha}_{t-1}}}{1 - \bar{\alpha}_{t-1}} \mathbf{x}_0)} \mathbf{x}_{t-1} \color{black}{ + C(\mathbf{x}_t, \mathbf{x}_0) \big) \Big)} \end{aligned}\\$

发现均值和方差也可以由Xt和X0表示，然后通过Xt表示X0，带入后只有噪声和X0：

$\mu_{\theta} = \frac1 {\sqrt{\alpha_t}}(x_t - \frac{1 - \alpha_t}{\sqrt{1-\bar{\alpha_t}}}\epsilon_\theta(x_t, t))$

因此想到使用一个U-net去拟合噪声

看了DDPM的解释之后，我产生的一个问题是：

噪声都是服从于同一个分布的随机变量，不同步的噪声之间有什么区别？
公式推导中从Xt和X0关系中也有一个随机噪声，这个值和之前不同步加入的随机噪声之间关系是什么？
上面出现了两个随机噪声，拟合的到底是哪个？

其实关键点在于第一个公式，就是：
$\mathbf{x}_t = \sqrt{\bar{\alpha}_t}\mathbf{x}_0 + \sqrt{1 - \bar{\alpha}_t}\mathbf{\epsilon}$

这个公式神奇之处在于x0是一个常数，而 $\epsilon$ 和Xt是一个随机变量。在上面那一步推导后验分布的时候，重新利用了这个公式，使用xt表示x0：
$\mathbf{x}_0 =\frac{1}{\sqrt{\bar{\alpha}_t}}(\mathbf{x}_t - \sqrt{1 - \bar{\alpha}_t}\mathbf{\epsilon})$

这个公式左边是一个常数，右边是两个随机变量之差！正常人都知道这样肯定是不成立的。其实这一步首先是对Xt进行采样，固定了一个噪声 $\epsilon$ ，此时Xt采样后变成了一个值，X0本身就是一个常数，而 $\epsilon$ 是一个固定的噪声值，不再是一个分布了！将这个值带入就可以获得最终的均值表达式。

在这个表达式中，噪声已经经过采样变成了一个确定的值，当然可以拟合了。那么网络拟合的噪声到底是t步中的哪一步呢？其实都不是，是从X0变成Xt的那个公式中的噪声！所以说在训练的时候并没有拿具体的每一步噪声去拟合，而是使用一个噪声直接从X0计算到Xt，然后再用神经网络拟合那个噪声。

很多人解释的时候说这样是提高效率云云，我觉得关键点还是，在目标函数中用到的噪声就是这个从X0到Xt的噪声！而不是每一步的噪声。如果用到了每一步的噪声，那么肯定还是去拟合每一步噪声的。说提高效率的人，我感觉根本没搞懂噪声之间的关系。