扩散模型的一些公式证明

最新推荐文章于 2024-09-05 19:35:47 发布

jony0917

最新推荐文章于 2024-09-05 19:35:47 发布

阅读量1.4k

点赞数 11

文章标签：机器学习

本文链接：https://blog.csdn.net/gaofeipaopaotang/article/details/139247321

版权

扩散模型的前向扩散过程：

$q(x_{1:T}|x_0) = \prod_{t=1}^Tq(x_t|x_{t-1}),q(x_t|x_{t-1}):=\mathcal{N}(\sqrt{1-\beta_t})x_{t-1},\beta_tI)\quad(1)$

逆向去噪过程：

$p_{\theta}(X_{0:T}) = p(X_T)\prod_{t=1}^Tp(X_{t-1}|X_t),p_{\theta}(X_{t-1}|X_t):=\mathcal{N}(\mu_{\theta}(X_t, t), \Sigma_{\theta}(X_t, t))\quad (2)$

模型的学习目标为：

$E[-logp_{\theta}(x_0)]\le E_q[-log\frac{p_{\theta}(x_{0:T})}{q(x_{1:T}|x_0)}]=E_q[-logp(x_t)-\sum_{t\ge1}log\frac{p_{\theta}(x_{t-1}|x_t)}{q(x_t|x_{t-1})}]:=L\quad(3)$

个人觉得原文中的公式（3）似乎有些问题，这里按自己的理解稍微修改了一点：

$-logp_{\theta}(x_0)\le E_q[-log\frac{p_{\theta}(x_{0:T})}{q(x_{1:T}|x_0)}]=E_q[-logp(x_T)-\sum_{t\ge1}log\frac{p_{\theta}(x_{t-1}|x_t)}{q(x_t|x_{t-1})}]:=L\quad(3')$

并给出证明如下：

$-logp_{\theta}(x_0) = E_{x_{1:T}\sim q(x_{1:T}|x_0)}[-logp_{\theta}(x_0)] = E_{q}[-logp_{\theta}(x_0)]$

$E_{q}[-log\frac{p_{\theta}(x_{0:T})}{p_{\theta}(x_{1:T} | x_0)}] = E_{q}[-log\frac{p_{\theta}(x_{0:T})}{p_{\theta}(x_{1:T} | x_0)} \frac{q(x_{1:T} | x_0)}{q(x_{1:T} | x_0)}]$

$=E_q[-log\frac{p_{\theta}(x_{0:T})}{q(x_{1:T} | x_0)} \frac{q(x_{1:T} | x_0)}{p_{\theta}(x_{1:T} | x_0)}]= E_q[-log\frac{p_{\theta}(x_{0:T})}{q(x_{1:T} | x_0)}]-E_q[\frac{q(x_{1:T} | x_0)}{p_{\theta}(x_{1:T} | x_0)}]$

$=E_q[-log\frac{p_{\theta}(x_{0:T})}{q(x_{1:T} | x_0)}]-D_{KL}(q(x_{1:T}|x_0)||p(x_{1:T}|x_0)) \le E_q[-log\frac{p_{\theta}(x_{0:T})}{q(x_{1:T} | x_0)}]$

原文中然后给出 L 进一步推导的结果：

$E_q[D_{KL}(q(x_T|x_0)||p(x_T)) + \sum_{t > 1}D_{KL}(q(x_{t-1}|x_t, x_0)||p_{\theta}(x_{t-1}|x_t)) - logp_{\theta}(x_0|x_1)]\quad(5)$

觉得（5）似乎也有些问题，也按自己的理解修改为：

$L=D_{KL}(q(x_{T}|x_0)||p(x_{T})) + \sum_{t>1}D_{KL}(q(x_{t-1}|x_t,x_0)||p(x_{t-1}|x_t)) - logp(x_0|x_1)\quad(5')$

并给出证明如下：

$L=E_q[-log\frac{p_{\theta}(x_{0:T})}{q(x_{1:T} | x_0)}] = E_q[-log\frac{p(x_T)\prod_{t\ge1} p(x_{t-1}|x_{t})}{\prod_{t\ge1} q(x_t|x_{t-1})}]$

$=E_q[-logp(x_T) - log\prod_{t\ge1}\frac{p(x_{t-1}|x_t)}{q(x_t|x_{t-1})}] = E_q[-logp(x_T) - \sum_{t\ge1}log\frac{p(x_{t-1}|x_{t})}{q(x_t|x_{t-1})}]$

$=E_q[-logp(x_T) - \sum_{t>1}log\frac{p(x_{t-1}|x_t)}{q(x_t|x_{t-1})} - log\frac{p(x_0|x_1)}{q(x_1|x_0)}]$

$E_q[-logp(x_T) - \sum_{t>1}log\frac{p(x_{t-1}|x_t)}{q(x_t|x_{t-1})} - log\frac{p(x_0|x_1)}{p(x_1|x_0)}]$

$E_q[-logp(x_T) - \sum_{t>1}log\frac{p(x_{t-1}|x_t)}{q(x_t|x_{t-1},x_0)} - log\frac{p(x_0|x_1)}{p(x_1|x_0)}]$

$=E_q[-logp(x_T) - \sum_{t>1}log\frac{p(x_{t-1}|x_t)}{q(x_t,x_{t-1},x_0)}\cdot q(x_{t-1},x_0)\frac{q(x_0)}{q(x_0)} \cdot\frac{q(x_t,x_0)}{q(x_t,x_0)} - log\frac{p(x_0|x_1)}{p(x_1|x_0)}]$

$=E_q[-logp(x_T) - \sum_{t>1}log\frac{p(x_{t-1}|x_t)}{q(x_{t-1}|x_t,x_0)}\frac{q(x_{t-1},x_0)}{q(x_0)} \cdot\frac{q(x_0)}{q(x_t,x_0)} - log\frac{p(x_0|x_1)}{p(x_1|x_0)}]$

$=E_q[-logp(x_T) - \sum_{t>1}log\frac{p(x_{t-1}|x_t)}{q(x_{t-1}|x_t,x_0)} \cdot\frac{q(x_{t-1}|x_0)}{q(x_t|x_0)} - log\frac{p(x_0|x_1)}{p(x_1|x_0)}]$

$=E_q[-logp(x_T) - \sum_{t>1}log\frac{p(x_{t-1}|x_t)}{q(x_{t-1}|x_t,x_0)} -\sum_{t>1}log\frac{q(x_{t-1}|x_0)}{q(x_t|x_0)} - log\frac{p(x_0|x_1)}{p(x_1|x_0)}]$

$=E_q[-logp(x_T) - \sum_{t>1}log\frac{p(x_{t-1}|x_t)}{q(x_{t-1}|x_t,x_0)} -log\frac{q(x_1|x_0)}{q(x_T|x_0)} - log\frac{p(x_0|x_1)}{p(x_1|x_0)}]$

$=E_q[-log\frac{p(x_T)}{q(x_T|x_0)} - \sum_{t>1}log\frac{p(x_{t-1}|x_t)}{q(x_{t-1}|x_t,x_0)} - logp(x_0|x_1)]$

$=E_q[-log\frac{p(x_T)}{q(x_T|x_0)}] + E_q[- \sum_{t>1}log\frac{p(x_{t-1}|x_t)}{q(x_{t-1}|x_t,x_0)} ] + E_q[- logp(x_0|x_1)]$

$=E_{x_{1:T}\sim q(x_{1:T}|x_0)}[-log\frac{p(x_T)}{q(x_T|x_0)}] + E_{x_{1:T}\sim q(x_{1:T}|x_0)}[- \sum_{t>1}log\frac{p(x_{t-1}|x_t)}{q(x_{t-1}|x_t,x_0)} ] + E_{x_{1:T}\sim q(x_{1:T}|x_0)}[- logp(x_0|x_1)]$

$=E_{x_{1:T}\sim q(x_{1:T}|x_0)}[log\frac{q(x_T|x_0)}{p(x_T)}] + E_{x_{1:T}\sim q(x_{1:T}|x_0)}[ \sum_{t>1}log\frac{q(x_{t-1}|x_t,x_0)}{p(x_{t-1}|x_t)}] - logp(x_0|x_1)$

$=E_{x_{1:T}\sim q(x_{1:T}|x_0)}[log\frac{q(x_T|x_0)}{p(x_T)}] + \sum_{t>1}E_{x_{1:T}\sim q(x_{1:T}|x_0)}[ log\frac{q(x_{t-1}|x_t,x_0)}{p(x_{t-1}|x_t)}] - logp(x_0|x_1)$

$E_{x_{1:T}\sim q(x_{1:T}|x_0)}[log\frac{q(x_T|x_0)}{p(x_T)}] = \int q(x_{1:T}|x_0)log\frac{q(x_T|x_0)}{p(x_T)}dx_{1:T} = \int (\int\frac{q(x_{1:T}|x_0)}{q(x_T|x_0}\prod_{k\ge 1, k\ne T} dx_k)q(x_T|x_0)log\frac{q(x_T|x_0)}{p(x_T)}dx_T$

$=\int (\int q(x_{1:T-1}|x_T,x_0)\prod_{T > k\ge 1} dx_k)q(x_T|x_0)log\frac{q(x_T|x_0)}{p(x_T)}dx_T=\int q(x_T|x_0)log\frac{q(x_T|x_0)}{p(x_T)}dx_T = E_{x_T\sim q(x_T|x_0)}[log\frac{q(x_T|x_0)}{p(x_T)}]$

$E_{x_{1:T}\sim q(x_{1:T}|x_0)}[ log\frac{q(x_{t-1}|x_t,x_0)}{p(x_{t-1}|x_t)}] = \int q(x_{1:T})log\frac{q(x_{t-1}|x_t,x_0)}{p(x_{t-1}|x_t)}dx_{1:T}$

$=\int (\int \frac{q(x_{1:T})}{q(x_{t-1}|x_t,x_0)}\prod_{k\ge 1, k\ne t-1}dx_k)q(x_{t-1}|x_t,x_0)log\frac{q(x_{t-1}|x_t,x_0)}{p(x_{t-1}|x_t)}dx_{t-1}$

$=\int (\int\frac{q(x_{0:T})}{q(x_0)}\cdot\frac{q(x_t,x_0)}{q(x_t,x_{t-1},x_0)}\prod_{k\ge 1, k\ne t-1}dx_k)q(x_{t-1}|x_t,x_0)log\frac{q(x_{t-1}|x_t,x_0)}{p(x_{t-1}|x_t)}dx_{t-1}$

$=\int (\int\frac{q(x_{0:T})}{q(x_0)}\cdot\frac{q(x_t,x_0)}{q(x_t|x_{t-1},x_0)q(x_{t-1},x_0)}\prod_{k\ge 1, k\ne t-1}dx_k)q(x_{t-1}|x_t,x_0)log\frac{q(x_{t-1}|x_t,x_0)}{p(x_{t-1}|x_t)}dx_{t-1}$

$=\int (\int\frac{q(x_{0:T})}{q(x_{t-1},x_0)}\cdot\frac{q(x_t,x_0)}{q(x_0)q(x_t|x_{t-1},x_0)}\prod_{k\ge 1, k\ne t-1}dx_k)q(x_{t-1}|x_t,x_0)log\frac{q(x_{t-1}|x_t,x_0)}{p(x_{t-1}|x_t)}dx_{t-1}$

$=\int (\int q(x_{k:k\ge 1, k\ne t-1}|x_{t-1},x_0)\cdot\frac{q(x_t|x_0)}{q(x_t|x_{t-1},x_0)}\prod_{k\ge 1, k\ne t-1}dx_k)q(x_{t-1}|x_t,x_0)log\frac{q(x_{t-1}|x_t,x_0)}{p(x_{t-1}|x_t)}dx_{t-1}$

$=\int (\int q(x_{k:k\ge 1, k\ne t-1}|x_{t-1},x_0) \cdot 1 \prod_{k\ge 1, k\ne t-1}dx_k)q(x_{t-1}|x_t,x_0)log\frac{q(x_{t-1}|x_t,x_0)}{p(x_{t-1}|x_t)}dx_{t-1} = E_{x_{t-1}\sim q(x_{t-1}|x_t,x_0)}[log\frac{q(x_{t-1}|x_t,x_0)}{p(x_{t-1}|x_t)}]$

$L=E_{x_{T}\sim q(x_{T}|x_0)}[log\frac{q(x_T|x_0)}{p(x_T)}] + \sum_{t>1}E_{x_{t-1}\sim q(x_{t-1}|x_T,x_0)}[ log\frac{q(x_{t-1}|x_t,x_0)}{p(x_{t-1}|x_t)}] - logp(x_0|x_1)$