生成对抗网络GAN

最新推荐文章于 2024-08-08 08:13:02 发布

Young_Gy

最新推荐文章于 2024-08-08 08:13:02 发布

阅读量2k

点赞数 2

文章标签：机器学习 GAN 生成对抗网络

本文链接：https://blog.csdn.net/Young_Gy/article/details/72458286

版权

背景
结构
训练
问题
其他GAN

这里写图片描述

GAN属于生成模型，使用生成数据分布 $P_{G}$ 去无限逼近数据的真实分布 $P_{data}$ 。衡量两个数据分布的差异有多种度量，例如KL散度等，但是前提是得知道 $P_{G}$ 。GAN利用discriminator巧妙地衡量了 $P_{G},P_{data}$ 的差异性，利用discriminator和generator的不断竞争（minmax）得到了好的generator去生成数据分布 $P_{G}$ 。

背景

很多时候，我们想输入一类数据，然后让机器学习这一类数据的模式，进而产生该类型新的数据。例如：

输入唐诗三百首，输出机器写的唐诗
输入一堆动漫人物的照片，输出机器生成的动漫人物照片

该问题的核心是原数据有其分布 $P_{data}$ ，机器想要学习新的分布 $P_{G}$ 去无限逼近 $P_{data}$ 。

一个简单的解决办法是采用异常检测的模型，通过输入大量的正常数据，让机器学习正常数据的内在规律。例如：自编码器模型如下。通过训练数据学习到数据的内在模式code。学习到code后，随机输入新的code便可以产生数据。

这里写图片描述

对于mnist数据，设code为2维，训练之后输入code得到的图片如下：
这里写图片描述

但是这种情况下，机器学习到的只是这个数据大概长什么样，而不是数据的真实分布。例如下图的两个7，在人看来都是真的图片7，但是机器却不这么认为。
这里写图片描述

结构

GAN由generator和discriminator两部分组成：

z -> G -> x' ->  D -> 01
          x  ->

generator：输入随机的 $z$ ，输出生成的 $x'$
discriminator：二分类器，输入生成的 $x'$ 和真实的 $x$ ，输出01（是否是真的数据）

GAN的训练，也包括generator和discriminator两部分：

discriminator的训练，设generator不变，通过调整discriminator的参数让discriminator尽可能区分开 $x,x'$ 。
generator的训练，设discriminator不变，通过调整generator的参数让discriminator尽可能区分不开 $x,x'$ 。

整体来看，generator和discriminator构成了一个网络结构，通过设置loss，保持某一个generator和discriminator参数不变，通过梯度下降更新另外一个的参数即可。

训练

最大似然估计

已知两个分布 $P_{data}(x)$ 和 $P_{G}(x;\theta)$ ，目标是找到 $G$ 的 $\theta$ 使两个分布尽量接近。

采用最大似然估计，有：

θ * = arg max θ \prod i = 1 m P G (x i; θ) = arg max θ \sum i = 1 m log P G (x i; θ) \approx arg max θ E x \sim P d a t a (x) [log P G (x; θ)] = arg max θ \int P d a t a (x) log P G (x; θ) d x - \int P d a t a (x) log P d a t a (x) d x = arg min θ K L (P d a t a (x) | | P G (x; θ))

$\begin{split} \theta^* &= \arg \max_{\theta} \prod_{i=1}^m P_{G}(x^i;\theta) \\ &= \arg \max_{\theta} \sum_{i=1}^m \log P_{G}(x^i;\theta) \\ &\approx \arg \max_{\theta} E_{x \sim P_{data}(x)} [\log P_{G}(x;\theta) ] \\ &= \arg \max_{\theta} \int P_{data}(x) \log P_{G}(x;\theta) dx - \int P_{data}(x) \log P_{data}(x)dx \\ &= \arg \min_{\theta} KL(P_{data}(x) || P_{G}(x;\theta)) \end{split}$

也就是说，最大似然 $P_{G}(x;\theta)$ 的概率等价于：最小化基于 $P_{G}(x;\theta)$ 的编码来编码 $P_{data}(x)$ 所需的额外位元数。也就是最小化KL散度。

下面只需要计算出 $P_{G}(x;\theta)$ ，一切问题似乎都解决了。事实确实这样，不过对于不同的 $G$ ， $P_{G}(x;\theta)$ 计算的难易程度不同。如果 $G$ 是高斯混合模型（GMM）那么很好计算，但是通常数据的分布不是GMM那么简单，需要更复杂的 $G$ 。通常， $G$ 是神经网络。这样的话， $P_{G}(x;\theta)$ 的计算便很困难，如下：

P G (x; θ) = \int P p r i o r (z) I [G (z) = x] d z

$P_{G}(x;\theta) = \int P_{prior} (z) I_{[G(z)=x]} dz$

这样来看，传统的最大似然是走不通呢，有没有别的出路呢？

考虑最大似然法真正解决的问题。最大似然就是提供了某种手段，去衡量两个分布 $P_{data}(x)$ 和 $P_{G}(x;\theta)$ 的相近程度。此路不通另寻他路即可。因此便引出了下文的 $V(G,D)$ 。

V(G,D)取代最大似然估计

$V(G,D)$ 是衡量两个分布 $P_{data}(x)$ 和 $P_{G}(x;\theta)$ 相近程度的一种手段，其不同于最大似然，是通过一个额外的discriminator识别的好坏做评估的。其核心是：discriminator判别数据是真的数据（1）还是采样的数据（0）。如果两个分布很接近，那么discriminator分辨不清，效果比较差；如果两个分布很远，那么discriminator分辨清，效果比较好。

V (G, D) = E x \sim P d a t a [log D (x)] + E x \sim P G [log (1 - D (x))]

$V(G,D) = E_{x \sim P_{data}} [\log D(x)] + E_{x \sim P_{G}} [\log (1-D(x))]$

整个训练策略，是先固定 $G$ 选择 $D^*$ 去最大化 $V(G,D)$ ；然后固定 $D^*$ 选择 $G$ 去最大化 $V(G,D^*)$ 。

G * = arg min G max D V (G, D)

$G^* = \arg \min_{G} \max_{D} V(G,D)$

D的训练

这部分解决的是：对于特定的G，如何训练得到更好的D。

D * = max D V (G, D)

$D^* = \max_{D} V(G,D)$

首先，对 $V(G,D)$ 做进一步分解：

V (G, D) = E x \sim P d a t a [log D (x)] + E x \sim P G [log (1 - D (x))] = \int P d a t a log D (x) d x + \int P G log (1 - D (x)) d x = \int [P d a t a (x) log D (x) + P G (x) log (1 - D (x))] d x

$\begin{split} V(G,D) &= E_{x \sim P_{data}} [\log D(x)] + E_{x \sim P_{G}} [\log (1-D(x))] \\ &= \int P_{data} \log D(x) dx + \int P_{G} \log (1-D(x)) dx \\ &= \int [P_{data}(x) \log D(x) + P_{G}(x) \log (1-D(x)) ]dx \end{split}$

所以有：

D * = arg max D P d a t a (x) log D (x) + P G (x) log (1 - D (x))

$D^* = \arg \max_{D} P_{data}(x) \log D(x) + P_{G}(x) \log (1-D(x))$

对上述式子求导得到：

D * (x) = P d a t a ( x ) P d a t a ( x ) + P G ( x )

$D^*(x) = \frac{P_{data}(x) }{P_{data}(x) + P_{G}(x)}$

每个 $D^*(x)$ 对应的 $V(G,D^*)$ 实际上衡量了特定 $G$ 下面两个分布 $P_{data}(x)$ 和$P_{G}差距。
这里写图片描述

将 $D^*(x)$ 代入 $V(G,D^*)$ ，有：
这里写图片描述

所以：固定G优化D的过程，相当于计算两个分布的距离：

max D V (G, D) = - 2 log 2 + 2 J S D (P d a t a (x) | | P G (x))

$\max_{D} V(G,D) = -2\log 2 + 2JSD(P_{data}(x) || P_{G}(x) )$

得到两个分布的距离之后，便转化成最小化两个分布的距离的问题，
也就是：

G * = arg min G max D V (G, D)

$G^* = \arg \min_{G} \max_{D} V(G,D)$

G的训练

固定G优化D得到 $D^*$ 便得到了两个分布的距离 $V(G,D^*)$ ，固定 $D^*$ 优化G，采用梯度下降即可。

这里写图片描述

算法

这里写图片描述

问题

G的更新优化不一定朝着最小的方向

优化G之后，原来的D对应的就不一定是 $\max V(G,D)$ 最大的 $G$ 了，这样与我们的假设不同。
解决办法是：就像梯度更新的时候迈的步子不能太大；更新G的时候迈的步子也不要太大。

这里写图片描述

通过抽样估计分布

这里写图片描述

G中的目标函数

实际训练G的时候，目标函数需要做一些修改，修改的原因是：在刚开始训练的时候， $D$ 能够很好的区分真实数据与模拟数据，这样 $P(G)$ 中 $D(x)$ 的值比较小。如果采用原来的目标函数，比较小的 $D(x)$ 对应目标函数的斜率比较低，不容易学习。通过改变目标函数，使比较小的 $D(x)$ 对应目标函数的斜率比较高，加快了学习速率，使模型更容易学习。