深度学习之生成对抗网络（5）纳什均衡

最新推荐文章于 2022-07-10 18:30:19 发布

炎武丶航

最新推荐文章于 2022-07-10 18:30:19 发布

阅读量1.8k

点赞数 6

分类专栏： TensorFlow2 深度学习文章标签：深度学习神经网络 tensorflow

本文链接：https://blog.csdn.net/weixin_43360025/article/details/120737895

版权

深度学习同时被 2 个专栏收录

125 篇文章 54 订阅

订阅专栏

TensorFlow2

69 篇文章 12 订阅

订阅专栏

深度学习之生成对抗网络（5）纳什均衡

1. 判别器状态
2. 生成器状态
3. 纳什均衡点

现在我们从理论层面进行分析，通过博弈学习的训练方式，生成器G和判别器D分别会达到什么平衡状态。具体地，我们将探索以下两个问题：

固定G，D会收敛到什么最优状态 $D^*$ ？
在D达到最优状态 $D^*$ 后，G会收敛到什么状态？

首先我们通过 $\boldsymbol x_r\sim p_r (\cdot)$ 一维正态分布的例子给出一个直观的解释。如下图所示，黑色虚线曲线代表了真实数据的分布 $p_r (\cdot)$ ，为某正态分布 $\mathcal N(μ,σ^2)$ ，绿色实线代表了生成网络学习到的分布 $\boldsymbol x_f\sim p_g (\cdot)$ ，蓝色虚线代表了判别器的决策边界曲线，图（a）、（b）、（c）、（d）分别代表了生成网络的学习轨迹。在初始状态，如下图（a）所示， $p_g (\cdot)$ 分布与 $p_r (\cdot)$ 差异较大，判别器可以很轻松地学习到明确的决策边界，即图（a）中的蓝色虚线，将来自 $p_g (\cdot)$ 的采样点判定为0， $p_r (\cdot)$ 中的采样点判定为1.随着生成网络的分布 $p_g (\cdot)$ 越来越逼近真是分布 $p_r (\cdot)$ ，判别器越来越困难将真假样本区分开，如下图（b）（c）所示。最后，生成网络学习到的分布 $\boldsymbol {p_g (\cdot)=p_r (\cdot)}$ 时，此时从生成网络中采样的样本非常逼真，判别器无法区分，即判定为真假样本的概率均等，如下图（d）所示。

这个例子直观地解释了GAN网络的训练过程。

纳什均衡点

1. 判别器状态

现在来推导第一个问题。回顾GAN的损失函数：
$\begin{aligned}\mathcal L(G,D)&=\int_x {p_r (\boldsymbol x)} \text{log}⁡(D(\boldsymbol x))+\int_z {p_z (\boldsymbol z)} \text{log}⁡(1-D(g(\boldsymbol z)))d\boldsymbol z\\ &=\int_x {p_r (\boldsymbol x) } \text{log}⁡(D(\boldsymbol x))+p_g (\boldsymbol x)log⁡(1-D(\boldsymbol x))d\boldsymbol x\end{aligned}$
对于判别器D，优化的目标是最大化 $\mathcal L(G,D)$ 函数，需要找出函数：
$f_θ=p_r (\boldsymbol x) \text{log⁡}(D(\boldsymbol x))+p_g (\boldsymbol x)\text{log}⁡(1-D(\boldsymbol x))$
的最大值，其中 $θ$ 为判别器D的网络参数。

我们来考虑 $f_θ$ 更通用的函数的最大值情况：
$\text{log}x+B\text{log}⁡(1-x)$
要求得 $f (x)$ 的最大值。考虑 $f (x)$ 的导数：
$\begin{aligned}\frac{\text{d}f(x)}{\text{d}x} &=A \frac{1}{\text{ln}⁡10} \frac{1}{x}-B \frac{1}{\text{ln}⁡⁡10} \frac{1}{1-x}\\ &=\frac{1}{\text{ln}⁡10} (\frac{A}{x}-\frac{B}{1-x})\\ &=\frac{1}{\text{ln}⁡10} \frac{A-(A+B)x}{x(1-x)}\end{aligned}$
令 $\frac{\text{d}f(x)}{\text{d}x}=0$ ，我们可以求得 $f (x)$ 函数的极值点：
$x=\frac{A}{A+B}$
因此，可以得知， $f_θ$ 函数的极值点同样为：
$D_θ=\frac{p_r (\boldsymbol x)}{p_r (\boldsymbol x)+p_g (\boldsymbol x)}$
也就是说，判别器网络 $D_θ$ 处于 $D_{θ^*}$ 状态时， $f_θ$ 函数取得最大值， $\mathcal L(G,D)$ 函数也取得最大值。

现在回到最大化 $\mathcal L(G,D)$ 的问题， $\mathcal L(G,D)$ 的最大值点在：
$D^*=\frac{A}{A+B}=\frac{p_r (\boldsymbol x)}{p_r (\boldsymbol x)+p_g (\boldsymbol x)}$
时取得，此时也是 $D_θ$ 的最优状态 $D^*$ 。

2. 生成器状态

再推导第二个问题之前，我们先介绍以下与KL散度类似的另一个分布距离度量标准：JS散度，它定义为KL散度的组合：
$D_{KL} (p||q)=∫_x p(\boldsymbol x) \text{log⁡}\frac{p(\boldsymbol x)}{q(\boldsymbol x)} \text{d}\boldsymbol x$
$D_{JS} (p||q)=\frac{1}{2} D_{KL} \Big(p||\frac{p+q}{2}\Big)+\frac{1}{2} D_{KL} \Big(q||\frac{p+q}{2}\Big)$
JS散度克服了KL散度不对称的缺陷。

当D达到最优状态 $D^*$ 时，我们来考虑此时 $p_r$ 和 $p_g$ 的JS散度：
$D_{JS} (p_r ||p_g)=\frac{1}{2} D_{KL} \Big(p_r ||\frac{p_r+p_g}{2}\Big)+\frac{1}{2} D_{KL} \Big(p_g ||\frac{p_r+p_g}{2}\Big)$
根据KL散度的定义展开为：
$\begin{aligned}D_{JS} (p_r ||p_g)=\frac{1}{2} \Big(\text{log}⁡2+∫_x p_r (\boldsymbol x) \text{log}\frac{⁡p_r (\boldsymbol x)}{p_r (\boldsymbol x)+p_g (\boldsymbol x)} \text{d}\boldsymbol x\Big)\\ +\frac{1}{2}\Big(\text{log}⁡2+∫_x p_r (\boldsymbol x) \text{log}\frac{p_g (\boldsymbol x)}{p_r (\boldsymbol x)+p_g (\boldsymbol x)} \text{d}\boldsymbol x\Big)\end{aligned}$
合并常数项可得：
$\begin{aligned}&D_{JS} (p_r ||p_g)=\frac{1}{2}(\text{log}⁡2+\text{log}⁡2)\\ &+\frac{1}{2} \Big(∫_x p_r (\boldsymbol x) \text{log}\frac{p_r (\boldsymbol x)}{p_r (\boldsymbol x)+p_g (\boldsymbol x)} \text{d}\boldsymbol x+∫_x p_r (\boldsymbol x) \text{log}\frac{p_g (\boldsymbol x)}{p_r (\boldsymbol x)+p_g (\boldsymbol x)} \text{d}\boldsymbol x\Big)\end{aligned}$
即：
$\begin{aligned}&D_{JS} (p_r ||p_g)=\frac{1}{2}(\text{log}⁡⁡4)\\ &+\frac{1}{2} \Big(∫_x p_r (\boldsymbol x) \text{log}\frac{p_r (\boldsymbol x)}{p_r (\boldsymbol x)+p_g (\boldsymbol x)} \text{d}\boldsymbol x+∫_x p_r (\boldsymbol x) \text{log}\frac{p_g (\boldsymbol x)}{p_r (\boldsymbol x)+p_g (\boldsymbol x)} \text{d}\boldsymbol x\Big)\end{aligned}$
考虑在判别网络到达 $D^*$ 时，此时的损失函数为：
$\begin{aligned}\mathcal L(G,D^* )&=∫_x p_r (\boldsymbol x) \text{log}\big(D^* (\boldsymbol x)\big)+p_g (\boldsymbol x)\text{log}⁡\big(1-D^* (\boldsymbol x)\big)\text{d}\boldsymbol x\\ &=\Big(∫_x p_r (\boldsymbol x) \text{log}\frac{p_r (\boldsymbol x)}{p_r (\boldsymbol x)+p_g (\boldsymbol x)} \text{d}\boldsymbol x+∫_x p_r (\boldsymbol x) \text{log}\frac{p_g (\boldsymbol x)}{p_r (\boldsymbol x)+p_g (\boldsymbol x)} \text{d}\boldsymbol x\Big)\end{aligned}$
因此在判别网络到达 $D^*$ 时， $D_{JS} (p_r ||p_g)$ 与 $\mathcal L(G,D^* )$ 满足关系：
$D_{JS} (p_r ||p_g)=\frac{1}{2}\big(\text{log}⁡4+\mathcal L(G,D^* )\big)$
即：
$\mathcal L(G,D^* )=2D_{JS} (p_r ||p_g)-2 \text{log}⁡2$
对于生成网络G而言，训练目标是 $\underset{G}{\text{min}}\mathcal L(G,D)$ ，考虑到JS散度具有性质：
$D_{JS} (p_r ||p_g)≥0$
因此 $\mathcal L(G,D^* )$ 取得最小值仅在 $D_{JS} (p_r ||p_g)=0$ 时（此时 $p_g=p_r$ ）， $\mathcal L(G,D^* )$ 取得最小值：
$L(G^*,D^* )=-2\text{log}⁡2$
此时生成网络 $G^*$ 的状态是：
$p_g=p_r$
即 $G^*$ 的学到的分布 $p_g$ 与真是分布 $p_r$ 一致，网络达到平衡点，此时：
$D^*=\frac{p_r (\boldsymbol x)}{p_r (\boldsymbol x)+p_g (\boldsymbol x)}=0.5$

3. 纳什均衡点

通过上面的推导，我们可以总结出生成网络G最终将收敛到真是分布，即：
$p_g=p_r$
此时生成的样本与真实样本来自统一分部，真假难辨，在判别器中均由相同的概率判定为真或假，即
$D(\cdot)=0.5$
此时损失函数为
$\mathcal L(G^*,D^* )=-2\text{log⁡}2$

炎武丶航

关注

6
点赞
踩
17

收藏

觉得还不错? 一键收藏
2
评论
深度学习之生成对抗网络（5）纳什均衡

深度学习之生成对抗网络（5）纳什均衡1. 判别器状态2. 生成器状态现在我们从理论层面进行分析，通过博弈学习的训练方式，生成器G和判别器D分别会达到什么平衡状态。具体地，我们将探索以下两个问题：固定G，D会收敛到什么最优状态D∗D^*D∗？在D达到最优状态D∗D^*D∗后，G会收敛到什么状态？首先我们通过xr∼pr(⋅)\boldsymbol x_r\sim p_r (\cdot)xr∼pr(⋅)一维正态分布的例子给出一个直观的解释。如下图所示，黑色虚线曲线代表了真实数据的分布pr(⋅)p
复制链接

扫一扫

专栏目录