Diffusion Models Unit1

一、DDPM原理

.从前向过程,逆向采样过程,优化目标三块进行介绍。

一句话概括diffusion model,即存在一系列高斯噪声( T轮),将输入图片 x_0变为纯高斯噪声 x_T。而我们的模型则负责将 x_T 复原回图片 x_0 。这样一来其实diffusion model和GAN很像,都是给定噪声 x_T生成图片 x_0 ,但是要强调的是,这里噪声 x_T与图片x_0是同维度的。

前向过程

在这里插入图片描述

前向过程,即往图片上加噪声的过程。这个步骤无法做到图片生成,但是这是理解diffusion model以及构建训练样本GT至关重要的一步
给定真实图片 x 0 ∼ q ( x ) x_0\sim q(x) x0q(x) ,将真实图片分布记为q(x),diffusion前向过程通过 T次累计对其添加高斯噪声,得到 x 1 , x 2 , . . . , x T x_1,x_2,...,x_T x1,x2,...,xT如下图的q过程。
在这里插入图片描述
这里需要给定一系列的高斯分布方差的超参数 { β t ∈ ( 0 , 1 ) } t = 1 T \{\beta_t\in(0,1)\}_{t=1}^{T} {βt(0,1)}t=1T.前向过程由于每个时刻 t只与 t-1时刻有关,所以也可以看做马尔科夫过程:
在这里插入图片描述
有关,所以也可以看做马尔科夫过程:
q ( x t ∣ x t − 1 ) q(x_t|x_{t-1}) q(xtxt1)表示给定 x t − 1 x_{t-1} xt1加噪后得到x_t的概率分布,是一个高斯分布,均值为 1 − β t x t − 1 \sqrt{1-\beta_t}x_{t-1} 1βt xt1,标准差为 β t I \sqrt{\beta_t}I βt I。后一个公式表示如果给定x0,那么x1:T的联合概率分布表示为T个公式连乘。
这个过程中,随着t 的增大, x_t越来越接近纯噪声。当 T → ∞ T\rightarrow\infty T, x_T是完全的高斯噪声(下面会证明,且与均值系数 1 − β t \sqrt{1-\beta_t} 1βt 的选择有关)。且实际中 β t \beta_t βt随着t增大是递增的,即 β 1 < β 2 < . . . < β T \beta_1<\beta_2<...<\beta_T β1<β2<...<βT

前向过程中有两个重要特性需要注意:
**特性1 - 重参数(reparameterization trick):**这个技巧在VAE中使用过,如果我们要从某个分布中随机采样(高斯分布)一个样本,这个过程是无法反传梯度的。而这个通过高斯噪声采样得到x_t的过程在diffusion中到处都是,因此我们需要通过重参数技巧来使得他可微。

最通常的做法是把随机性通过一个独立的随机变量\epsilon引导过去。举个例子,如果要从高斯分布 z ∼ N ( z ; μ θ , σ θ 2 I ) z\sim \mathcal{N}(z;\mu_\theta,\sigma_\theta^2\mathbf{I}) zN(z;μθ,σθ2I) 采样一个z,我们可以写成:
z = μ θ + σ θ ⊙ ϵ , ϵ ∼ N ( 0 , I ) z=\mu_\theta+\sigma_\theta\odot\epsilon, \epsilon\sim\mathcal{N}(0,\mathbf{I}) z=μθ+σθϵ,ϵN(0,I)
上式的z依旧是有随机性的, 且满足均值为 μ θ \mu_\theta μθ方差为 σ θ 2 \sigma_\theta^2 σθ2的高斯分布。这里的 μ θ σ θ 2 \mu_\theta\sigma_\theta^2 μθσθ2可以是由参数 \theta 的神经网络推断得到的。整个“采样”过程依旧梯度可导,随机性被转嫁到了 ϵ \epsilon ϵ上。
特性2 - 任意时刻的 x t x_t xt可以由 x 0 x_0 x0 β \beta β表示
能够通过 x 0 x_0 x0 β \beta β快速得到$ x_t$ 对后续diffusion model的推断和推导有巨大作用。首先我们假设 α t = 1 − β t \alpha_t=1-\beta_t αt=1βt,并且 α ‾ t = ∏ i = 1 T α i \overline{\alpha}_t=\prod_{i=1}^{T}\alpha_i αt=i=1Tαi ,展开 x_t 可以得到:
在这里插入图片描述

更详细:
在这里插入图片描述
由于独立高斯分布可加性,即 N ( 0 , σ 1 2 I ) + N ( 0 , σ 2 2 I ) ∼ N ( 0 , ( σ 1 2 + σ 2 2 ) I ) \mathcal{N}(0,\sigma_1^2\mathbf{I})+\mathcal{N}(0,\sigma_2^2\mathbf{I})\sim\mathcal{N}(0,(\sigma_1^2+\sigma_2^2)\mathbf{I}) N(0,σ12I)+N(0,σ22I)N(0,(σ12+σ22)I)所以
在这里插入图片描述

因此可以混合两个高斯分布得到标准差为 为\sqrt{1-\alpha_t \alpha_{t-1}}的混合高斯分布,然而上式中的 z ‾ 2 \overline{z}_{2} z2仍然是标准高斯分布。而任意时刻的 x_t 满足 q ( x t ∣ x 0 ) = N ( x t ; a ‾ t x 0 , ( 1 − a ‾ t ) I ) q(x_t|x_0)=\mathcal{N}(x_t;\sqrt{\overline{a}_t}x_0, (1-\overline{a}_t)\mathbf{I}) q(xtx0)=N(xt;at x0,(1at)I)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值