【深度学习】生成对抗网络（Generative Adversarial Nets）浅解析

最新推荐文章于 2024-07-31 08:30:00 发布

Zhang_Chen_

最新推荐文章于 2024-07-31 08:30:00 发布

阅读量594

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/Zhang_Chen_/article/details/107578136

版权

深度学习专栏收录该内容

21 篇文章 4 订阅

订阅专栏

【深度学习】生成对抗网络（Generative Adversarial Nets）浅解析

KL散度和JS散度
理论及推导
结语

KL散度和JS散度

KL散度，用于衡量两种概率分布的相似程度，非负，值越小，表示两种概率分布越接近。

对于离散的概率分布：
$D_{KL}(P||Q)=\displaystyle\sum_{x\in{X}}P(x)log\dfrac{P(x)}{Q(x)}$
对于连续的概率分布：
$D_{KL}(P||Q)=\int_x{p(x)}log\dfrac{p(x)}{q(x)}d_x$

注意，KL散度不是对称的，即 $D_{KL}(P||Q)\not=D_{KL}(Q||P)$

JS散度，用于衡量两种概率分布的相似程度，值在 $[0, 1]$ ，值越小，表示两种概率分布越接近，解决了KL散度非对称的问题。

$D_{JS}(P||Q)=\dfrac{1}{2}D_{KL}(P||\dfrac{P+Q}{2})+\dfrac{1}{2}D_{KL}(Q||\dfrac{P+Q}{2})$

理论及推导

原始GANs的基本结构：

生成对抗网络包括两个模型：

生成模型 $G$ ：用于学习数据集的分布，输入随机噪声 $z$ ，输出生成数据 $x$ ，即 $x = G (z)$ 。 $G$ 将 $z$ 从噪声域 $p_z(z)$ 映射到数据域 $p_g(x)$
判别模型 $D$ ：判断一个样本是来自数据集，还是来自生成器 $G$ 的生成。判别模型希望当输入来自数据集时，输出 $1$ ，当输入是生成器 $G$ 的生成时，输出 $0$ 。即区分 $p_{data}{(x)}$ 和 $p_g{(x)}$ 。

优化预期结果：

生成模型 $G$ ： $G$ 完全恢复训练数据的数据分布，即 $p_{data}{(x)}=p_g{(x)}$
判别模型 $D$ ： $D$ 无法区分样本是来自数据集还是来自生成器 $G$ 的生成，即对任何输入，输出都是 $1 / 2$

对于原始的GANs，生成模型 $G$ 和判别模型 $D$ 的backbone都是多层感知机

直观地看GANs的思想：
在这里插入图片描述如图 $(a)$ ，噪声 $z$ 作为生成器 $G$ 的输入，生成器 $G$ 的输出 $x$ 的数据分布如绿色线所示。黑色线为训练数据的数据分布。此时判别器如蓝色线所示，可以很好的区分 $p_{data}(x)$ （对应输出为1）和 $p_g(x)$ （对应输出为0）。

如图 $(b)$ ，训练判别器 $D$ ，使其达到最优，可以更好的区分 $p_{data}(x)$ 和 $p_g(x)$ 。

如图 $(c)$ ，训练生成器 $G$ ，使 $p_{data}(x)$ 和 $p_g(x)$ 更加接近，判别器 $D$ 不易将二者分开。

…

最后如图 $(d)$ ， $p_{data}(x)$ 和 $p_g(x)$ 完全相同，判别器 $D$ 无法区分二者。

分析原始GANs的优化目标，和优化目标的唯一解：
在这里插入图片描述
原始GANs的优化目标如上公式：

固定生成模型 $G$ ，优化判别模型 $D$ ，使优化目标最大：
$l o g$ 是递增函数，优化 $D$ ，使 $D (x)$ 接近1，使 $D (G (z))$ 接近0（这里 $x$ 是训练数据， $G (z)$ 是生成器 $G$ 的输出），即 $D$ 可以分辨出 $p_g(x)$ 和 $p_{data}(x)$ ，即优化目标的两项都增大，即总优化目标增大
固定判别模型 $D$ ，优化生成模型 $G$ ，使优化目标最小：
生成器 $G$ 要尽量使 $p_g(x)$ 接近 $p_{data}(x)$ ，即 $D (G (x))$ 接近 $D (x)$ ，即 $D (G (x))$ 增大，即优化目标的后一项减小，即总优化目标减小

接下来，简单证明一下，上述的优化目标，生成器 $G$ 有全局唯一解—— $p_g(x)=p_{data}(x)$ ：

将上述优化目标，数学期望写成积分的形式：

$G)=\int_xp_{data}(x)log(D(x))d_x + \int_zp_z(z)log(1-D(G(z)))d_z$

因为

$E_{z∼p_z(z)}[log(1−D(G(z)))]=E_{x∼p_g(x)}[log(1−D(x))]$

所以，上述优化目标可进一步写为：

$G)=\int_xp_{data}(x)log(D(x))d_x + \int_xp_g(x)log(1-D(x))d_x=\int_x[p_{data}(x)log(D(x))+p_g(x)log(1-D(x))]d_x$

因为当 $y$ 的值在 $[0, 1]$ 时， $y$ 取 $\dfrac{a}{a+b}$ ，使 $a l o g (y) + b l o g (1 - y)$ 最大，故，固定生成器 $G$ 时候，最优判别器为：

$D_G(x)=\dfrac{p_{data}(x)}{p_{data}(x)+p_g(x)}$

注意，在实际训练中，因为 $p_{data}(x)$ 是不可求的，所以实际训练中，当固定生成器 $G$ 优化判别器 $D$ 时，是另 $D$ 逼近 $D_G(x)$

当 $p_{data}(x)=p_g(x)$ 时，对任意 $x$ ，判别器 $D$ 的输出为 $\dfrac{1}{2}$ ，满足判别器 $D$ 的优化预期。

为什么固定 $D$ 为 $D_G(x)$ 时，当且仅当 $p_{data}(x)=p_g(x)$ ，会另优化目标 $V(D_G(x),G)$ 最小呢？

证明如下：

假设 $p_{data}(x)=p_g(x)$ ，则：

$V(D_G(x), G)=\int_x[p_{data}(x)log(\dfrac{1}{2})+p_g(x)log(1-\dfrac{1}{2})]d_x$
$V(D_G(x), G)=-log2\int_xp_{data}(x)d_x-log2\int_xp_g(x)d_x=-log4$

仅将 $D_G(x)=\dfrac{p_{data}(x)}{p_{data}(x)+p_g(x)}$ 代入 $V (D, G)$ ，有：

$V(D_G(x), G)=\int_x[p_{data}(x)log(\dfrac{p_{data}(x)}{p_{data}(x)+p_g(x)})+p_g(x)log(\dfrac{p_g(x)}{p_{data}(x)+p_g(x)})]d_x$
$V(D_G(x), G)=\int_x[(log2-log2)p_{data}(x)+p_{data}(x)log(\dfrac{p_{data}(x)}{p_{data}(x)+p_g(x)})+(log2-log2)p_g(x)+p_g(x)log(\dfrac{p_g(x)}{p_{data}(x)+p_g(x)})]d_x$
$V(D_G(x), G)=-log2\int_x[p_{data}(x)+p_g(x)]d_x +\int_x[p_{data}(x)[log2+log(\dfrac{p_{data}(x)}{p_{data}(x)+p_g(x)})]+p_g(x)[log2+log(\dfrac{p_g(x)}{p_{data}(x)+p_g(x)})]]d_x$
$V(D_G(x), G)=-2log2+\int_x[p_{data}(x)log(\dfrac{p_{data}(x)}{\dfrac{p_{data}(x)+p_g(x)}{2}})+p_g(x)log(\dfrac{p_g(x)}{\dfrac{p_{data}(x)+p_g(x)}{2}})]d_x$
$V(D_G(x), G)=-log4+D_{KL}(p_{data}||\dfrac{p_{data}+p_g}{2})+D_{KL}(p_g||\dfrac{p_{data}+p_g}{2})$
$V(D_G(x), G)=-log4+2D_{JS}(p_{data}||p_g)$