GAN的基本理论

最新推荐文章于 2023-04-12 22:47:24 发布

lizhaoxinLZX

最新推荐文章于 2023-04-12 22:47:24 发布

阅读量255

点赞数

分类专栏：李宏毅-生成对抗网络文章标签：深度学习人工智能算法神经网络

本文链接：https://blog.csdn.net/lizhaoxin666/article/details/116405500

版权

李宏毅-生成对抗网络专栏收录该内容

2 篇文章 0 订阅

订阅专栏

李宏毅GAN笔记——基本理论

0 Warning
1 用数学推导Generator的求解原理
2 为什么训练算法就是在解G^*^
3 最后讲一些Intuition的东西

0 Warning

本章数学推导极多，难度也较高

1 用数学推导Generator的求解原理

把图像数据看做一个高维向量，其实其是有分布的，因为在图像向量所在的高维空间中只有非常少的部分sample出来的image看起来像人脸：
在这里插入图片描述
真实人脸的分布P_data(x)是存在的，但是我们不知道，我们希望寻找一个分布P_G(x;θ)与P_data越接近越好，其中P_G(x;θ)的分布由θ决定，我们从P_data(x)中sample一组图片，计算在分布P_G(x;θ)中sample该组图片的概率L，我们的目标就是求一组θ最大化L。
在这里插入图片描述

1.1 如何最大化L

其中最大化L可以化为下式：
在这里插入图片描述
这就相当于求从P_data(x)中采样出x，并将其表示为logP_G(x;θ)的期望，即约等于最大化序列{logP_G(x¹;θ), logP_G(x²;θ), …, logP_G(x^m;θ)}的数学期望。[注意：这里运用了大数定律（算术平均值去表示数学期望），以及省略了1/m]：
在这里插入图片描述
注意上式中是约等号，将其变为连续型的表达：

在上式后面增加一项和θ无关的常数项（这一步是为了凑KL散度）：

注意最后是求最小值。补充一个KL divergence的计算公式：

即我们的目标就是求得一组θ，可以最小化P_data(x)和P_G的KL Divergence，而Generator就是由这组参数θ控制的但是我们不知道P_data(x)和P_G的具体表达式，就不能用传统数学上的梯度下降求解θ，那我们该怎么呢？当然是让GAN来解决问题辣！

1.2 如何使用GAN来解决上述问题

注意到我们近似的Generator是一个NN，如何表示一个NN输出一个图像的概率呢？文献中给出下列方法，将一系列付出Normal Distribution的序列z输入NN，输出的图像x就是P_G(x;θ)的分布。我们的目标又可以表示为求一个Generator，可以最小化P_data(x)和P_G的区别：
在这里插入图片描述
但是其实我们依旧不知道如何计算Div(P_data，P_G)，因为我们不知道两者的公式，这就要体现出GAN的神奇之处了→下图中从P_G中sample的方法是随机生成一组向量输入到Generator中输出的图像就是sample。

这里就要请出我们的工具人Discriminator了，我们使用Discriminator就可以衡量Div(P_data，P_G)，因为Discriminator希望P_data得分高，P_G得分低。求解Discriminator如下图所示，我们可以发现V(G, D)和训练一机器学习中的二分类分类器的代价函数一样，只不过是要最大化，所以使用梯度上升：
在这里插入图片描述

1.3 数学证明为什么max V(D, G)和divergence有关

在这里插入图片描述
因为我们上图中假设了D(x)可以表示任何函数，那么其实各个x就独立开了，因为每一个x都可以让D(x)输出任何值，我们只需要令每一个x的取值P_data(x)logD(x) + P_G(x)log(1-D(x))最大即可:

我们可以轻易的检查出此时V的值是一个极大值，即我们只需要将D^*(x)代上图中算出的值就可以让V最大。带入，经过一些变形发现此时就是JS Divergence：
在这里插入图片描述

即我们在训练Discriminator时就是在求P_data和P_G的JS Divergence，前提是目标函数要按V的形式定义
上文中我们曾说Div(P_data, P_G)没法算，现在其实就是max V(D, G)

即下图所示：

假设我们只有3个Generator可选，每一个Generator下，横坐标的变化表示D的不同（神经网络D简化为仅由一个参数控制），纵坐标表示V，则我们最后选择的G₃，D在红点处：
在这里插入图片描述
其实第一篇博客中训练G和D的过程就是在解G^*=arg min max V(G,D)。

2 为什么训练算法就是在解G^*

令蓝色框框里等于L(G)，对其做微分：
在这里插入图片描述
因为G很可能是分段的，则我们初始化一个G₀首先看看它在哪个段，就对应该该段的D₀^*

实际操作中我们使用均值代替数学期望：

总结：

为了训练时时梯度消失，我们做一个变形：

3 最后讲一些Intuition的东西

在这里插入图片描述

lizhaoxinLZX

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
GAN的基本理论

李宏毅GAN笔记——基本理论11把图像数据看做一个高维向量，其实其是有分布的，因为在图像向量所在的高维空间中只有非常少的部分sample出来的image看起来像人脸：真实人脸的分布Pdata(x)是存在的，但是我们不知道，我们希望寻找一个分布PG(x;θ)与Pdata越接近越好，其中PG(x;θ)的分布由θ决定，我们从Pdata(x)中sample一组图片，计算在分布PG(x;θ)中sample该组图片的概率L，我们的目标就是最大化L。...
复制链接

扫一扫