GAN学习总结二-理论推导

最新推荐文章于 2024-04-24 19:30:06 发布

NH558J0

最新推荐文章于 2024-04-24 19:30:06 发布

阅读量1.3k

点赞数 3

分类专栏：深度学习 GAN 文章标签： GAN 理论推导

本文链接：https://blog.csdn.net/happyday_d/article/details/85406361

版权

深度学习同时被 2 个专栏收录

27 篇文章 4 订阅

订阅专栏

GAN

5 篇文章 1 订阅

订阅专栏

GAN学习总结二-理论推导

本文从理论角度总结一下GAN的理论，主要参考李宏毅老师的GAN课程，可参考GAN完善理论推导与实现；

如下图 Generator是一个network，从Normal的分布中取出数据z送入G中，产生出x， $x = G (z)$ ;当输入很多的数据时，产生出一个分布 $P_G(x)$ 目的是使得该分布与 $P_{data}(x)$ 的分布越近越好，其中 $P_{data}(x)$ 是给定数据的分布， $x$ 表示高纬向量，表示图像。可得到图中的 $\arg \min \limits_{ G } \operatorname { Div } \left( P _ { G } , P _ { d a t a } \right)$ ，其中 $DIV(P_G,P_{data})$ 表示 $P_G$ 和 $P_{data}$ 的散度，现在问题是 $P_{data}$ 和 $P_G$ 的数据分布是都不知道的，因此，DIV也是没法计算出来的？
在这里插入图片描述

$P_G$ 和 $P_{data}$ 的分布我们不知道，但可以从给定的数据集中sample出数据，如下图，从G产生出的图像认为是 $P_G$ 中采样得到的值。
在这里插入图片描述

训练一个D，即寻找一个最优化的D,使得 $V (D, G)$ 达到一个最大值，固定的G时，优化如下公式：

$\sim P _ { d a t a } } [ \log D ( x ) ] + E _ { x \sim P _ { c } } [ \log ( 1 - D ( x ) ) ]$ 使该式值最大；
在这里插入图片描述
如下图：当给定一个G时，寻找一个 $D^*$ 使得 $V (G, D)$ 最大，如下为推导过程，当给定一个x时，需要求一个 $D^*$ 使得 $\text {data} } ( x ) \log D ( x ) + P _ { G } ( x ) \log ( 1 - D ( x ) )$ 最大：

利用求导求 $\mathrm { f } ( D ) = \operatorname { alog } ( D ) + \operatorname { blog } ( 1 - D )$ 导数求得使该式子的最大值，最后得到的 $\frac { P _ { d a t a } ( x ) } { P _ { d a t a } ( x ) + P _ { G } ( x ) }$ 时 $f (D)$ 最大；同时将求得的 $D^*(x)$ 代入下式：
$\begin{aligned} V & = E _ { x \sim P _ { \text {data} } } [ \log D ( x ) ] + E _ { x \sim P _ { G } } [ \log ( 1 - D ( x ) ) ] \end{aligned}$
在这里插入图片描述

在这里插入图片描述
最终得到的 $m a x V (G, D)$ 符合Jensen–Shannon divergence (JS散度)

结论：根据原始GAN定义的判别器loss，我们可以得到最优判别器的形式；而在最优判别器下，我们可以把原始GAN定义的生成器loss等价变换为最小化真实分布 $P_{data}$ 与生成分布 $P_G$ 之间的JS散度，我们越训练判别器，它就越接近最优，最小化生成器的loss也就越近似于最小化 $P_{data}$ 和 $P_G$ 之间的JS散度。

参考：

https://zhuanlan.zhihu.com/p/25071913

https://zhuanlan.zhihu.com/p/29837245[GAN完善理论推导与实现]

NH558J0

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
GAN学习总结二-理论推导

GAN学习总结二本文从理论角度总结一下GAN的理论，主要参考李宏毅老师的GAN课程，可参考GAN完善理论推导与实现；如下图 Generator是一个network，从Normal的分布中取出数据z送入G中，产生出x，x=G(z)x=G(z)x=G(z);当输入很多的数据时，产生出一个分布PG(x)P_G(x)PG(x) 目的是使得该分布与Pdata(x)P_{data}(x)Pdata...
复制链接

扫一扫