CS236 Deep Generative Models （4）

最新推荐文章于 2022-10-14 09:13:00 发布

Nemo555

最新推荐文章于 2022-10-14 09:13:00 发布

阅读量459

点赞数 1

分类专栏： Deep Generative Model 文章标签：机器学习深度学习人工智能算法

本文链接：https://blog.csdn.net/weixin_40056577/article/details/104495469

版权

Deep Generative Model 专栏收录该内容

5 篇文章 2 订阅

订阅专栏

Latent Variable Model

概述
一、GMM
- 1.1 GMM建模
- 1.2 生成式中的三大基本问题
二、VAE
- 2.1 VAE建模
- 2.2 VAE建模总结
三、Variational Inference and Learning
四、VAE的总结
- 4.1 VAE Perspective
- 4.2 总结
后记

概述

Latent Variable与Autoregressive Model的区别：

Autoregressive使用DAG图、假设参数来近似Chain Rule即 $p(x_1,...,x_n)=p(x_1)p(x_2|x_1)\cdots p(x_n|x_1,...,x_{n-1})$
Autoregressive的数据是完全可观测的，即随机变量 $x_i$ 的值，如Pixel
啰嗦一下，我们观测的样本，可以理解成某些随机变量下的值，我们建模的是随机变量的关系（结构、参数），整个过程就是通过随机变量的值来估计随机变量的关系
Latent Variable Model就是假设了 $p(x_1,...,x_n)$ 中的某些随机变量 $x_i,...,x_j$ 是不可观测的，但又与样本生成的值有关
Autoregressive学习不到Unsupervised Representative Vector，但Latent可以学到（后面会提到）

下面主要先从离散Latent Variable即GMM，扩展到连续Latent Variable即VAE，最后再介绍Variational Infenence的方式进行Learning

一、GMM

1.1 GMM建模

pic-1
对一个image来说，在前面建模时，把每个pixel当成随机变量 $x_i$ ，这些都是可观测的，但 $p(x_1,...,x_n)$ 中的一些pixels的关系受隐变量 $z_i$ 的控制，如性别Gender,种族Ethnicity等等，因此对隐变量囊括进来的联合分布 $P (X, Z)$ 一起建模。

对于 $K$ 个高斯分布的混合模型GMM来说：

$z\sim Categorical(p_1,...,p_K)$ ，隐变量 $Z$ 服从参数为 $p_1,p_2,...p_K$ 的多项式分布。（一般可假设为均匀分布）
$p(x|z=k)=N(u_k,\Sigma_k)$ ，对于隐变量 $Z$ 的第k个取值，随机变量 $X$ 服从参数为 $u_k,\Sigma_k$ 的高斯分布
特别提醒：
当GMM模型的参数 $p_1,p_2,...,p_K$ 与 $u_1,...,u_K,\sigma_1,...,\sigma_K$ 通过 $X_{train}$ 学习好后，输入一测试样本 $x^{(i)}_{test}$ ，即可得到其属于 $K$ 个高斯分布的概率向量 $P_1,...,P_K)$ ，这就是latent variable model 可以学习到Unsupervised Learning Representation的原因，区别于Autoregressive Model的地方
$p(X_{train})=\sum_{k=1}^Kp(X_{train}|Z=k)p(Z=k)\\ p(Z=k|x^{(i)}_{test})=\frac{p(Z=k,x^{(i)}_{test})}{p(x^{(i)}_{test})}=\frac{p(Z=k,x^{(i)}_{test})}{\sum_{k=1}^Kp(x^{(i)}_{test}|Z=k)p(Z=k)}$
GMM的参数模型可用EM算法进行学习，此处不提EM算法，可参见刘建平的EM算法总结。

1.2 生成式中的三大基本问题

Representation：假设 $p (Z)$ 是多项式分布 $C a t$ ， $p (X ∣ Z)$ 是高斯分布 $N$ ，从而对联合分布 $p (X, Z) = p (X ∣ Z) p (Z)$ 建了模
Inference：通过数据样本 $x^{(i)}=(x_1^{(i)},x_2^{(i)},...x_n^{(i)})$ 来推断模型参数即 $p(Z=k|x^{(i)})$
Learning : 使用（MLE）Maximum Likelihood Learning，即 $\argmax_\theta\sum_ilogp_\theta(x^{(i)})$ ，可回顾Deep Generative Models (3)，但此处是用EM算法进行Learn的，与MLL还是有点小差别。

二、VAE

2.1 VAE建模

pic-2
对于VAE来说，将GMM中的 $K\rightarrow\infty$ :

$z\sim N(0,I)$
$p(x|z)=N(u_\theta(z),\Sigma_\theta(z))$ （这里对结构进行了高斯分布的假设，但对高斯分布的参数用 $\theta$ 建了模）
问题出现在 $p(x)=\int p(z)(x|z)dz$ ，对无穷多个高斯分布求积分，是intractable的，就是说，之前的MLL💊（完蛋）！

分析一下💊的问题
$D={\{x^{(1)},x^{(2)},\cdots,x^{(N)}\}}$ ，MLL最大化似然函数 $L(\theta,D)$ ：
$\begin{aligned} L(\theta,D)=log\prod_{i\in D}p(x^{(i)};\theta)&=\sum_{i\in D}logp(x^{(i)};\theta)=\sum_{i\in D}log\int p(x^{(i)},z;\theta)dz\\ &\theta^{t+1}\leftarrow\theta^t+\nabla_\theta L(\theta) \end{aligned}$

这个 $\int p(x^{(i)},z;\theta)dz$ 是intractable的，怎么算？
只能用Important Sampling来近似解决了
$\begin{aligned} logp(x^{(i)};\theta)=log\int p(x^{(i)},z;\theta)dz&=log\int \frac{q_i(z)}{q_i(z)}p(x^{(i)},z;\theta)dz\\ &=logE_{z\sim q_i(z)}\Big[\frac{p(x^{(i)},z;\theta)}{q_i(z)}\Big]\quad (1)\\ &\geq E_{z\sim q_i(z)}\Big[log\frac{p(x^{(i)},z;\theta)}{q_i(z)}\Big] \quad (2)\\ &=E_{z\sim q_i(z)}\Big[log{p(x^{(i)},z;\theta)}\Big]+H(q_i(z))\\ &=ELBO(Evidence \quad Lower\quad Bound) \end{aligned}$

换一下表述： $p(x^{(i)},z;\theta)=p_\theta(x^{(i)},z)$

所以对于每一个样本有：
$logp_\theta(x^{(i)})\geq E_{z\sim q_i(z)}\Big[logp_\theta(x^{(i)},z)\Big]+H(q_i)$

$L_i(p_\theta,q_i)=E_{z\sim q_i(z)}\Big[logp_\theta(x^{(i)},z)\Big]+H(q_i)$
一个美妙的结论
先下结论：
$logp_\theta(x^{(i)})=L_i(p_\theta,q_i)+KL\big(q_i(z)||p_\theta(z|x^{(i)})\big)$

然后证明：
$\begin{aligned} KL(q_i(z)||p_\theta(z|x^{(i)}))&=\int q_i(z)log\frac{q_i(z)}{p(z|x^{(i)})}dz\\ &=\int q_i(z)logq_i(z)dz-\int q_i(z)logp(z|x^{(i)})dz\\ &=-H(q_i)-\int q_i(z)log\frac{p(x^{(i)},z)}{p(x^{(i)})}dz\\ &=-H(q_i)-E_{z\sim q_i(z)}logp(x^{(i)},z)+\int q_i(z)logp(x^{(i)})dz\\ &=-L_i(p_\theta,q_i)+logp_\theta(x^{(i)}) \end{aligned}$
$\argmax_\theta\sum_ilogp_\theta(x^{(i)})\equiv \argmax_\theta L_i(p_\theta,q_i)同时\argmin_{q_i} KL(q_i||p_\theta(z|x^{(i)}))$
结论的来源
求知欲更强一点就是，这个 $KL(q_i(z)||p_\theta(z|x^{(i)}))$ 中的 $p_\theta(z|x^{(i)})$ 是怎么来的呢？

在最上面的推导 $(1)$ 到 $(2)$ 中使用了 $logE[f]\geq E[logf]$ ，且等号成立条件为 $\frac{p_\theta(x^{(i)},z)}{q_i(z)}=c$ ，且 $\int q_i(z)dz=1,c$ 为常数，有

$\int q_i(z)dz=\int\frac{p_\theta(x^{(i)},z)}{c}dz=1\\ \int p_\theta(x^{(i)},z)dz=p_\theta(x^{(i)})=c\\ q_i(z)=\frac{p_\theta(x^{(i)},z)}{c}=\frac{p_\theta(x^{(i)},z)}{p_\theta(x^{(i)})}=p_\theta(z|x^{(i)})$

2.2 VAE建模总结

到这里梳理一波（搞清逻辑很关键！）：

一个样本的似然函数 $\begin{aligned} logp_\theta(x^{(i)})&=L_i(p_\theta,q_i)+KL\big(q_i(z)||p_\theta(z|x^{(i)})\big)\\&=E_{z\sim q_i(z)}\Big[logp_\theta(x^{(i)},z)\Big]+H(q_i)+KL\big(q_i(z)||p_\theta(z|x^{(i)})\big) \end{aligned}$
VAE的假设中 $p_\theta(x|z)=N(u_\theta(z),\sigma_\theta(z))，z\sim N(0,I),p_\theta(x,z)=p_\theta(x|z)p(z),p_\theta(z|x)=\frac{p_\theta(x,z)}{p_\theta(x)}$
问题就在于 $p_\theta(x^{(i)})$ 是intractable的，因此 $p_\theta(z|x^{(i)})$ 也intractable，想最大化似然函数 $logp_\theta(x^{(i)})$ ，就得知道 $p_\theta(z|x^{(i)})$ ，其又intractable，于是只能使用简单可采样的分布 $q_i(z)$ 去逼近 $p_\theta(z|x^{(i)})$
参数化 $q_i(z;\phi^{(i)})$ ，调整 $\phi^{(i)}$ ，使 $KL\big(q_i(z;\phi^{(i)})||p_\theta(z|x^{(i)})\big)$ 最小，等价于使 $L_i(p_\theta,q_{\phi^{(i)}})$ 最大。

三、Variational Inference and Learning

3.1 变分推断的含义与思路

根据上面的VAE分析
$D={\{x^{(1)},x^{(2)},\cdots,x^{(M)}\}}$ ，最大化似然函数 $L(\theta,D)$ ：
$\begin{aligned} \max_\theta L(\theta,D)&=\max_\theta log\prod_{i\in D}p(x^{(i)};\theta)\\ &=\max_\theta\sum_{i\in D}logp_\theta(x^{(i)})\\ &=\max_\theta \sum_{i\in D}L_i(p_\theta,q_i)+KL\big(q_i(z)||p_\theta(z|x^{(i)})\big)\\ &=\max_\theta \sum_{i\in D}E_{z\sim q_i(z)}\Big[logp_\theta(x^{(i)},z)\Big]+H(q_i)+KL\big(q_i(z)||p_\theta(z|x^{(i)})\big)\\ &\geq \max_{\theta,\phi^{(1)},...,\phi^{(M)}}\sum_{i\in D}E_{z\sim q_{\phi^{(i)}}(z)}\Big[logp_\theta(x^{(i)},z)-logq_{\phi^{(i)}}(z)\Big]\\ &=\max_{\theta,\phi^{(1)},...,\phi^{(M)}}\sum_{i\in D}L(x^{(i)};\theta,\phi^{(i)}) \end{aligned}$

关键Learning的思路

利用 $\phi^{(i)}$ 参数化分布 $q_i(z)$ 后，上述看成固定 $\theta$ ，最小化 $KL\big(q_i(z;\phi^{(i)})||p_\theta(z|x^{(i)})\big)$ 中的参数 $\phi^{(i)}$
然后固定 $\phi^{(i)},i=1,...,M$ ,最大化 $L(x^{(i)};\theta,\phi^{(i)})$ 中的参数 $\theta$
迭代更新 $\theta,\phi$ ，参数收敛后即完成Learning过程，如下图。

变分推断的含义
Variational Inference中的Variational就是针对一个固定的 $\theta$ ，根据objective function变动每个样本的 $\phi^{(i)}$ ，而Inference在一开始提到大概意思，通过样本估计参数，即 $p_\theta(z|x^{(i)})$ ，最终意思Inference通过variational的方式逼近计算得到，称Variational Inference。

3.2 变分推断的算法

3.2.1 Stochastic Variational Inference

数据集 $D={\{x^{(1)},x^{(2)},\cdots,x^{(M)}\}}$
优化目标：
$\max_{\theta,\phi^{(1)},...,\phi^{(M)}}\sum_{i\in D}L(x^{(i)};\theta,\phi^{(i)})=\max_{\theta,\phi^{(1)},...,\phi^{(M)}}\sum_{i\in D}E_{z\sim q_{\phi^{(i)}}(z)}\Big[logp_\theta(x^{(i)},z)-logq_{\phi^{(i)}}(z)\Big]$

SVI的算法流程：

初始化 $\theta,\phi^{(1)},...,\phi^{(M)}$
随机sample一个样本 $x^{(i)}\in D$
固定 $\theta$ ，在 $L(x^{(i)};\theta,\phi^{(i)})$ 中优化 $\phi^{(i)}$ :
1. Repeat $\phi^{(i)}\leftarrow\phi^{(i)}+\alpha_1\nabla_{\phi^{(i)}}L(x^{(i)};\theta,\phi^{(i)})$
2. Until $\phi^{(i)}\approx \argmax_{\phi^{(i)}_*}L(x^{(i)};\theta,\phi^{(i)})$
固定 $\phi^{(i)}_*$ ，计算 $\nabla_{\theta}L(x^{(i)};\theta,\phi^{(i)}_*)$
$\theta\leftarrow\theta+\alpha_2\nabla_{\theta}L(x^{(i)};\theta,\phi^{(i)}_*)$

算法流程大致明晰了，但gradient的计算好像不太清楚即 $\nabla_{\phi^{(i)}}L(x^{(i)};\theta,\phi^{(i)})$ 和 $\nabla_{\theta}L(x^{(i)};\theta,\phi^{(i)}_*)$ ，下面具体展开来算算。

$\begin{aligned} L(x^{(i)};\theta,\phi^{(i)})&=E_{z\sim q_{\phi^{(i)}}(z)}\Big[logp(x^{(i)},z;\theta)-logq(z;\phi^{(i)})\Big]\\ &\approx \frac{1}{K}\sum_{k=1}^K\Big[logp(x^{(i)},z^k;\theta)-logq(z^k;\phi^{(i)})\Big] \end{aligned}$

因为假设 $q(z;\phi^{(i)})$ 是比较好采样的，而且tractable，所以可以使用MC estimation对期望进行估计。

3.2.2 关于 $\theta$ 的梯度计算

$\begin{aligned} \nabla_\theta L(x^{(i)};\theta,\phi^{(i)})&=\nabla_\theta E_{z\sim q_{\phi^{(i)}}(z)}\Big[logp(x^{(i)},z;\theta)-logq(z;\phi^{(i)})\Big]\\ &=\nabla_\theta E_{z\sim q_{\phi^{(i)}}(z)}\Big[logp(x^{(i)},z;\theta)\Big]\\ &\approx \frac{1}{K}\sum_{k=1}^Klogp(x^{(i)},z^k;\theta) \end{aligned}$

$logp(x^{(i)},z^k;\theta)=logp(x^{(i)}|z^k;\theta)p(z^k)\\ P(z)= N(0,I)\\ P(x|z^k;\theta)=N\big(u_\theta(z^k),\Sigma_\theta(z^k)\big)$

所以可以算出 $p(z^k)$ 和 $p(x^{(i)}|z^k,\theta)$ 的概率密度，这关于 $\theta$ 的Gradient好求！

$\begin{aligned} \nabla_{\phi^{(i)}}L(x^{(i)};\theta,\phi^{(i)})&=\nabla_{\phi^{(i)}}E_{z\sim q_{\phi^{(i)}}(z)}\Big[logp(x^{(i)},z;\theta)-logq(z;\phi^{(i)})\Big] \end{aligned}$

这个关于 $\phi^{(i)}$ 的Gradient在期望中 $E_{z\sim q_{\phi^{(i)}}(z)}$ 有点麻烦呀=。=

抽象一下表述：

$\nabla_{\phi^{(i)}} E_{z\sim q_{\phi^{(i)}}(z)}\Big[logp(x^{(i)},z;\theta)-logq(z;\phi^{(i)})\Big]=\nabla_{\phi^{(i)} }E_{q(z;\phi^{(i)})}\Big[r(z;\phi^{(i)})\Big]\\ r(z;\phi^{(i)})=E_{z\sim q_{\phi^{(i)}}(z)}\Big[logp(x^{(i)},z;\theta)-logq(z;\phi^{(i)})\Big]$

3.2.3 关于 $\phi$ 的梯度计算

Reparameterization trick
$E_{q(z;\phi)}[r(z)]=\int q(z;\phi)r(z)dz\\ z\sim q(z;\phi)=N(u,\sigma^2I)$

所以 $\phi={u,\sigma^2}$ , $z$ 必须是连续变量

从 $N(u,\sigma^2I)$ 中采样 $z$ 相当于增加一个自由参数 $\epsilon\sim N(0,I),z=u+\epsilon\sigma=g(\epsilon;\phi=\{u,\sigma\})$

在 $E_{q(z;\phi)}[r(z)]$ 代入 $z=u+\epsilon\sigma,\phi=\{u,\sigma\}$ 得：

$\begin{aligned} &E_{q(z;\phi)}[r(z)]=E_{\epsilon\sim N(0,I)}[r(g(\epsilon;\phi)]=\int p(\epsilon)r(u+\sigma\epsilon)d\epsilon\\ &\nabla_\phi E_{q(z;\phi)}[r(z)]=\nabla_\phi E_{\epsilon}[r(g(\epsilon;\phi))]=E_{\epsilon}[\nabla_\phi r(g(\epsilon;\phi)]\\ &\approx \frac{1}{K}\sum_{k=1}^K \nabla_\phi r(g(\epsilon^k;\phi) \end{aligned}$

所以最终有：

$\begin{aligned} \nabla_{\phi^{(i)} }E_{q(z;\phi^{(i)})}\Big[r(z;\phi^{(i)})\Big]&=\nabla_{\phi^{(i)}} E_{z\sim q_{\phi^{(i)}}(z)}\Big[logp(x^{(i)},z;\theta)-logq(z;\phi^{(i)})\Big]\\ &=\nabla_{\phi^{(i)} }E_{\epsilon\sim N(0,I)}\Big[r(g(\epsilon;\phi^{(i)});\phi^{(i)})\Big]\\ &\approx\nabla_{\phi^{(i)}}\frac{1}{K}\sum_{k=1}^K\Big[r(g(\epsilon^k;\phi^{(i)});\phi^{(i)})\Big] \end{aligned}$

REINFROCE的做法

$J(\theta)=E_{\tau\sim\pi_\theta(\tau)}\Big[r(\tau)\Big]\\ \nabla_\theta J(\theta)=E_{\pi_\theta(\tau)}\big[\nabla_\theta log\pi_\theta(\tau)r(\tau)\big]\\$

因此有

$\begin{aligned} \nabla_{\phi^{(i)}} E_{q(z;\phi^{(i)})}[r(z;\phi^{(i)})]&=E_{q(z;\phi^{(i)})}\Big[\nabla_\phi logq_{\phi^{(i)}}(z)r(z;\phi^{(i)})\Big]\\ &\approx \frac{1}{K}\sum_{k=1}^K\Big[\nabla_\phi logq_{\phi^{(i)}}(z^k)r(z^k;\phi^{(i)})\Big] \end{aligned}$

对离散还是连续的变量 $z$ 均可使用，问题就是high variance！

3.3 Amortized Inference

前面的SVI，对一个data样本 $x^{(i)}$ ，逼近其 $p(z|x^{(i)})$ ，对应了一组高斯分布的参数 $\phi^{(i)}=\{{u^{(i)},\sigma^{(i)}},\epsilon^{(i)}\}$ ，麻烦，为什么不直接使用一个mapping，建立样本与参数空间 $\phi^{(i)}$ 的映射呢？即输入一个 $x^{(i)}$ ，输出其服从的高斯分布的参数 $\{{u^{(i)},\sigma^{(i)}}\}$ ，记为 $q_\phi(z|x)$

目标函数为：
$L(x;\theta,\phi)=E_{q_\phi(z|x)}\Big[logp(x,z;\theta)-logq_\phi(z|x)\Big]$

所以算法流程为：

初始化 $\theta^{(0)},\phi^{(0)}$
在数据集 $D=\{x^{(1)},x^{(2)},...,x^{(M)}\}$ 中采样 $x^{(i)}$
计算梯度 $\nabla_\theta L(x^{(i)};\theta,\phi)$ 与 $\nabla_\phi L(x^{(i)};\theta,\phi)$
更新参数 $\theta,\phi$

四、VAE的总结

4.1 VAE Perspective

pic-3
$\begin{aligned} L(x;\theta,\phi)&=E_{q_\phi(z|x)}\Big[logp(x,z;\theta)-logq_\phi(z|x)\Big]\\ &=E_{q_\phi(z|x)}\Big[logp(x,z;\theta)-logp(z)+logp(z)-logq_\phi(z|x)\Big]\\ &=E_{q_\phi(z|x)}\Big[logp(x|z;\theta)\Big]-D_{KL}\big(q_\phi(z|x)||p(z)\big) \end{aligned}$

解释一下：

输入一个真实样本 $x^{(i)}$
Encoder通过采样 $q_\phi(z|x^{(i)})$ 将 $x^{(i)}$ 映射到隐变量上 $\hat z$ 即高斯分布的参数
Decoder通过采样 $p(x|\hat z;\theta)$ 将在隐变量 $\hat z$ 上的样本 $\hat x$ 重构出来

解析目标函数的作用：

$E_{q_\phi(z|x)}\Big[logp(x|z;\theta)\Big]$ 使 $\hat x\approx x^{(i)}$
$D_{KL}\big(q_\phi(z|x)||p(z)\big)$ 使隐变量表示更加接近于先验的 $p (z)$ ，即一般情况下 $z\sim N(0,I)$