L3 Flow Model

最新推荐文章于 2024-07-24 22:13:06 发布

lzk_nus

最新推荐文章于 2024-07-24 22:13:06 发布

阅读量305

点赞数

分类专栏： Machine Learning Deep Learning 文章标签：算法 python

本文链接：https://blog.csdn.net/qq_42791848/article/details/128518841

版权

Deep Learning 同时被 2 个专栏收录

43 篇文章 4 订阅

订阅专栏

Machine Learning

22 篇文章 13 订阅

订阅专栏

Lecture3 Flow Model

上一节的Autoregressive Model主要探讨的是discrete的数据 $x$ ，那么随之而来的问题就是连续数据怎么处理。对于连续的 $\in R^n$ ，我们依然希望模型能够做到以下这几点：

学习到数据潜在的分布 $p_{\theta}(x)$
对于新的数据 $x$ ，能够得到相应的 $p_{\theta}(x)$
能够根据 $p_{\theta}(x)$ 进行采样
能够得到有意义的representation

一个比较直接能想到的方法是利用混合高斯分布来进行拟合，然而，当数据的维度非常高的时候（比如图像数据 $28\times28\times3$ ），mixture of Gaussian效果并不理想。下图就是一个用混合高斯来生成狗狗图像的例子，可以看到生成的结果很差。

而Flow Model是比较经典的模型之一，我们一步一步来看他是怎么拟合连续数据分布的。

1-D Flow

我们首先从一维的简单情况入手。Flow Model的做法是，我们不去直接输出 $p_{\theta}(x)$ ，而是生成一个 $z=f_{\theta}(x)$ 。而这个 $z$ 满足 $\sim p_{Z}(z)$ ， $p_{Z}(z)$ 是我们可以指定的。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vAb55KOo-1672627300175)(L3 Flow Model.assets/image-20230101212442282.png)]

这整个 $\rightarrow z$ 的过程就叫做一个flow。特别的，当 $\sim N(0,1)$ 的时候，我们把它叫做Normalizing Flow。

Train

下面看如何来train，方法还是maximize log-likelihood：
$max_{\theta} \sum_{i}\log p_{\theta}(x^{(i)})$
但是由于我们现在的输出是 $z$ 而不是 $p_{\theta}(x)$ ，因此不能直接使用maximize log-likelihood。接下来的部分需一些数学推导。

我们已知 $z=f_{\theta}(x)$ ，而还有一个比较隐蔽的等式关系是： $p (x) d x = p (z) d z$ 。这个的原因是 $z$ 其实是对 $x$ 进行了某种仿射变换得到的结果，考虑在 $x$ 和 $z$ 的方向上各取一个极小量 $d x$ 和 $d z$ ，我们需要保证变化量一样，因此这个等式必须成立。有了这个等式以后，我们把 $z$ 代入就得到：
$p_{\theta}(x)\ =\ p(f_{\theta}(x))|\frac{df_{\theta}(x)}{dx}|$
这个过程叫做Change of Variable。得到了 $p_{\theta}(x)$ 关于 $z$ 的表示，我们就可以应用最大似然法进行训练了：
$max_{\theta}\ \sum_{i}\log p_{\theta}(x^{(i)})\ =\ max_{\theta}\ \log p(f_{\theta}(x^{(i)}))\ +\ \log |\frac{df_{\theta}(x^{(i)})}{dx}|$
但是这里要注意，我们的 $f_{\theta}$ 必须是differentiable的。

Sample

sample比较简单，我们首先从 $p_{Z}(z)$ sample出一个 $z$ ，然后 $x=f^{-1}_{\theta}(z)$ 。但是这里 $f_{\theta}$ 又多了一个条件，就是必须是invertible的。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rMs7cfXF-1672627300176)(L3 Flow Model.assets/image-20230101221241020.png)]

上图是一个简单的例子，我们指定的 $p_{Z}(z)$ 是一个均匀分布，可以看到训练后 $z$ 的分布确实与均匀分布比较接近。

现在我们的 $f_{\theta}$ 有两个要求：differentiable & invertible，接下来的任务自然是想什么样的函数符合这两点。我们可以考虑Cumulative Distribution Function （CDF），这个函数是单调递增的，并且是连续的，因此符合上述两个条件。但是实际情况下，我们通常会采用neural network的模型来作为我们的 $f_{\theta}$ ，那么如果我们能保证每一层都是一个合法的flow，整个网络就会是一个flow了。如果使用NN，那么differentiable自动满足了，唯一要考虑的就是invertible的问题。

N-D Flow

之前提到mixture of Gaussian的一个问题就是不能处理高维数据，我们介绍了简单的1-D Flow，下面来看general的情况。

Autoregressive Flow

Flow模型也可以是Autoregressive的，基本的形式就是
$x_1\ \sim\ p_{\theta}(x_1) \ \ \ \ \ \ z_1\ =\ f_{\theta}(x_1)\ \ \ \ \ \ x_1\ =\ f^{-1}_{\theta}(z_1) \\ x_2\ \sim\ p_{\theta}(x_2|x_1) \ \ \ \ \ \ z_2\ =\ f_{\theta}(x_2;x_1)\ \ \ \ \ \ x_2\ =\ f^{-1}_{\theta}(z_2;x_1) \\ x_3\ \sim\ p_{\theta}(x_3|x_1,x_2) \ \ \ \ \ \ z_3\ =\ f_{\theta}(x_3;x_1,x_2)\ \ \ \ \ \ x_3\ =\ f^{-1}_{\theta}(z_3;x_1,x_2) \\$
这种形式是和之前基本一致的，只不过变成了auto regressive的结构

Inverse Autoregressive Flow

我们以可以把上面的结构进行一个反转， $\rightarrow z$ 使用sampling的结构， $\rightarrow x$ 使用计算log-likelihood的结构。
$z_1\ =\ f^{-1}_{\theta}(x_1) \ \ \ \ \ \ x_1\ =\ f_{\theta}(z_1) \\ z_2\ =\ f^{-1}_{\theta}(x_2;z_1)\ \ \ \ \ \ x_2\ =\ f_{\theta}(z_2;z_1) \\ z_3\ =\ f^{-1}_{\theta}(x_3;z_1,z_2)\ \ \ \ \ \ x_3\ =\ f_{\theta}(z_3;z_1,z_2) \\$
其实就是把 $x$ 和 $z$ 做了一个互换。这样的形式就叫做Inverse Autoregressive Flow （IAF）

AF和IAF各有优缺点，在Autoregressive Model中我们提到sampling的过程是比较慢的，因为要等前面的先生成出来。我们可以看到AF中sampling的过程是autoregressive的，因此AF是slow sampling，但是evaluate $p (x)$ 是快的，因此fast evalution。再看IAF，由于我们的 $z$ 是服从于一个已知的分布 $p_{Z}(z)$ 的，所以IAF的sampling是很快的，因为我们可以获得 $z_1,z_2,z_3$ 然后sampling的过程是可以parallel的，但是train的过程变慢了，因为 $\rightarrow z$ 的过程现在是autoregressive的。总结一下：

AF：slow sampling，fast evaluation of $p (x)$
IAF：fast sampling，slow training on log-likelihood

RealNVP

当数据来到了高维，我们再来回顾我们的目标函数：
$max_{\theta}\ \sum_{i}\log p_{\theta}(x^{(i)})\ =\ max_{\theta}\ \log p(f_{\theta}(x^{(i)}))\ +\ \log |\frac{df_{\theta}(x^{(i)})}{dx}|$
把最后一项拿出来并考虑一般形式
$|\frac{df_{\theta}(x)}{dx}|$
那么当 $\in R^{n}$ 时， $\frac{dz}{dx}$ 应该是一个Jacobian matrix，而我们计算的是他的determinant。那对于 $f_{\theta}$ 的第三个条件也随之到来，我们希望这个determinant是容易计算的。

Flow Composition

Flow的一个性质是可以compose，比如 $\rightarrow f_1 \rightarrow f_2 \rightarrow \dots \rightarrow f_k \rightarrow z$ ，train的过程可以表示为 $z\ =\ f_k \circ \dots \circ f_1(x)$ ，sampling的过程可以表示为 $x\ =\ f^{-1}_{1}\circ \dots \circ f^{-1}_{k}(z)$ 。而training objective就改写为：
$max_{\theta}\ \log p(f_{\theta}(x^{(i)}))\ +\ \sum_{j=1}^{k}\log |\frac{df_{j}}{df_{j-1}}(x^{(i)})|$
导数那里要用到chain rule

Affine Flow

Flow的参数可以用一个invertible矩阵 $A$ 和一个向量 $b$ 来表示， $f(x)\ =\ A^{-1}(x-b)$ 。sampling就以可以表示为 $x\ =\ Az + b$ ， $\sim N(0,1)$ 。由于 $z$ 服从的是一个高斯分布，因此affine flow也可以叫做multivariate Gaussian。

Elementwise Flow

element-wise flow指的是每个variable $x_i$ 都通过独立的flow
$f_{\theta}(x_1,x_2,\dots,x_d)\ =\ (f_{\theta}(x_1),f_{\theta}(x_2),\dots,f_{\theta}(x_d))$
那么
$\frac{dz}{dx}\ =\ diag(f'_{\theta}(x_1),\dots,f'_{\theta}(x_d)) \\=\prod_{i=1}^{d}f'_{\theta}(x_i)$
element-wise的flow很方便evaluate

RealNVP

下面来看RealNVP是如何解决 $f_{\theta}$ 三个要求的。作者把 $x$ 分成两个部分 $x_{1:d/2},x_{d/2:d}$ ，然后定义如下的mapping
$z_{1:d/2}\ =\ x_{1:d/2}\\ z_{d/2:d}\ =\ x_{d/2:d} \cdot s_{\theta}(x_{1:d/2}) + t_{\theta}(x_{1:d/2})$
同时利用到了上面介绍的三点：coupling，affine，和element-wise。上面的 $s_{\theta}$ 和 $t_{\theta}$ 可以是任意的neural net并且是element-wise的

Differentiable

$\frac{\partial{z}}{\partial{x}}\ =\ \left[\begin{matrix} I & 0 \\ \frac{\partial{z_{d/2:d}}}{\partial{x_{1:d/2}}} & diag(s_{\theta}(x_{1:d/2})) \end{matrix}\right]$