生成对抗网络原理篇（GAN）

最新推荐文章于 2024-07-16 08:15:42 发布

风吹草地现牛羊的马

最新推荐文章于 2024-07-16 08:15:42 发布

阅读量365

点赞数

分类专栏：机器学习生成模型

本文链接：https://blog.csdn.net/mch2869253130/article/details/109628275

版权

机器学习同时被 2 个专栏收录

97 篇文章 5 订阅

订阅专栏

生成模型

5 篇文章 1 订阅

订阅专栏

本文深入解析了生成对抗网络（GAN）的基本原理，通过国宝与造假专家的比喻阐述了GAN的工作机制。GAN的目标是通过神经网络学习生成接近真实数据的样本，同时训练一个鉴别器以区分真实数据和生成数据。文章讨论了鉴别器和生成器的优化目标，并展示了全局最优解的情况，即鉴别器无法区分真假样本。GAN在图像生成、数据增强等领域有广泛应用。

摘要由CSDN通过智能技术生成

本文整理自B站的白板推导系列。这篇主要讲解GAN的原理。下一篇会动手在minist数据集上实现一个GAN。

一个例子

在这里插入图片描述

现在有一批国宝，一个造假专家和一个鉴赏专家。造假专家通过观察国宝，然后仿造工艺品，鉴赏专家通过判断一个工艺品是国宝还是造假专家仿造的，对造假专家进行反馈。同时造假专家也会对鉴赏专家进行反馈，提升鉴赏专家的鉴赏能力。

鉴赏专家的目标是通过上面的训练成为高水平的鉴赏专家，造假专家的目标是通过上面的训练成为高水平的造假专家，造出的工艺品能以假乱真。

数学描述

国宝是真实的，用 $p_{data}(x)$ 来描述，假设有 $N 个国宝$ ，那么有 $x_{i} \sim p_{data}(x_i), i \in[1, N]$ 。造假专家制作的工艺品是仿造的，用 $p_g(x; \theta_g)$ 来描述， $\theta_g$ 是分布的参数。

在GAN中，并没有直接对 $p_{g}(x;\theta_g)$ 建模，而是用一个神经网络去逼近 $p_{g}(x;\theta_g)$ ，而网络的参数就是 $\theta_g$ 。由于纯粹的神经网络是不具备随机性的，所以假设 $x$ 是由一个随机变量 $z$ 生成的， $z$ 服从一个简单的分布，比如高斯分布，这样就引入了随机性。假设 $\sim p_{z}(z)$
在这里插入图片描述
上面提到的神经网络就是 $G(z;\theta_g)$ ，那么 $x=G(z;\theta_g)$ ，上面这个过程其实也就是由一个隐变量生成样本的过程，也就是在建模分布 $p_{g}(x|z)$ 。VAE中不也是这样吗？只不过在VAE中显示定义了 $p_{g}(x|z)$ 的形式，一般都是高斯分布，而在GAN中，则用一个神经网络去拟合分布 $p_{g}(x|z)$ ，并没有假设其具体形式，所以从这个角度来看，是不是GAN比VAE要更好。

令 $D(x;\theta_d)$ 是鉴赏专家鉴别造假专家生成的 $x$ 是国宝的概率， $D(x;\theta_d)$ 越大，表示鉴赏专家认为 $x$ 是国宝的概率越高。

也就是：

在这里插入图片描述

对于鉴赏专家来说：

如果 $x$ 是来自于 $p_{data}$ ，那么 $D (x)$ 应该越高，
如果 $x$ 是来自于 $p_{g}$ ，那么 $D (x)$ 应该越低，也就是 $1 - D (x)$ 应该越高。前面已经说到造假专家的 $x$ 是通过 $G(z;\theta_g)$ 生成的，那么也就是 $1-D(G(z;\theta_g))$ 应该越高。

综上，站在鉴赏专家的角度考虑，就是使下式最大化：
$E_{x \sim p_{data}}[D(x)] +E_{z \sim p_{z}}[1-D(G(z;\theta_g))]$

为了计算的方方便，上面一般都取 $l o g$ ，也就是：
$\tag{1} E_{x \sim p_{data}}[logD(x)] +E_{z \sim p_{z}}[log(1-D(G(z;\theta_g)))]$

对于造假专家来说：

如果 $x$ 是来自于 $p_g$ ，那么希望鉴赏专家将其鉴别为真，也就是 $l o g (1 - D (G (z)))$ 越小。

站在造假专家的角度考虑就是使得下式最小：
$E_{x \sim p_{z}}[log(1-D(G(z;\theta_g)))]$

综合鉴赏专家和造假专家的损失函数，最终GAN的损失是：
$\tag{2} min_{G} max_{D}[E_{x \sim p_{data}}[logD(x)] +E_{z \sim p_{z}}[log(1-D(G(z;\theta_g)))]]$

GAN的难点是学习出来 $G 和 D$ ，也就是学习出 $\theta_g和\theta_d$ 。

GAN的另一大特点是，GAN并没有直接去面对 $p_{g}$ ，没有假设 $p_{g}$ 的具体形式，而是用了一个可微的神经网络 $G(z;\theta_g)$ 去逼近 $p_g$ 。

全局最优解

令 $\tag{3} V(G,D)=E_{x \sim p_{data}}[logD(x)] +E_{x \sim p_{g}}[log(1-D(x))]$

为了推导方便，这里将 $z$ 都换成了 $x$ 。将 $G 和 D$ 理解为神经网络就行。所以目标就变成了
$\tag{4}min_{G}max_{D} V(G,D)$

固定 $G，max_{D}V(G,D)$ 。
$\begin{aligned} \tag{5} max_{D}V(G,D)= & \int p_{data}(x)logD(x)dx+\int p_{g}(x)log(1-D(x))dx \\ = & \int p_{data}(x)logD(x)+p_{g}(x)log(1-D(x))dx \end{aligned}$

（5）式对 $D$ 求导得：
$\begin{aligned} \tag{6} {\partial max_{D}V(G,D) \over \partial D} = & \int {\partial \over \partial D}[p_{data}(x)logD(x)+p_{g}(x)log(1-D(x))]dx \\ = & \int [p_{data}(x){1 \over D(x)}-p_{g}(x){1 \over 1-D(x)}]dx \end{aligned}$
令（6）式等于0，解得：
$D^{*}_{G}(x) = {p_{data}(x) \over p_{data}(x)+p_{g}(x)}$
$p_{data}(x)$ 虽然形式未知，但是给定数据时是固定不变的。 $p_{g}(x)$ 是变化的，所以 $D^{*}_{G}$ 是关于生成器 $p_{g}(x)$ 的函数。

将 $D^{*}_{G}$ 带入（4）式
$\begin{aligned} \tag{7} min_{G}max_{D} V(G,D) = & min_{G}V(G, D^{*})\\ = & min_{G} E_{x \sim p_{data}}[log {p_{data}(x) \over p_{data}(x)+p_{g}(x)}] + E_{x \sim p_{g}}[log {p_{g}(x) \over p_{data}(x)+p_{g}(x)}] \\ = & min_{G} E_{x \sim p_{data}}[log {p_{data}(x) *{1\over 2}\over (p_{data}(x)+p_{g}(x))/2})] + E_{x \sim p_{g}}[log {p_{g}(x)*{1 \over 2} \over (p_{data}(x)+p_{g}(x)) / 2}] \\ = & min_{G} KL(p_{data}(x)||{p_{data}(x) + p_{g}(x) \over 2}) + KL(p_{g}(x)||{p_{data}(x) + p_{g}(x) \over 2}) -log4 \\ = & min_{G}JS(p_{data}(x)||p_{g}(x)) -log4\\ \ge & -log4 \end{aligned}$
当 $p_{data}(x)={p_{data}(x)+p_{g}(x) \over 2} =p_{g}(x)$ 时取等号。

此时， $p^{*}_{g}=p_{data}, D^{*}_{G}=0.5$ ，这就是全局最优解，此时鉴别器对于生成器输出的 $x$ 都输出0.5，说明鉴别器已无法判断 $x$ 是真实数据还是假数据。生成器达到了全局最优。

风吹草地现牛羊的马

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
生成对抗网络原理篇（GAN）

本文整理自B站的白板推导系列。一个例子现在有一批国宝，一个造假专家和一个鉴赏专家。造假专家通过观察国宝，然后仿造工艺品，鉴赏专家通过判断一个工艺品是国宝还是造假专家仿造的，对造假专家进行反馈。同时造假专家也会对鉴赏专家进行反馈，提升鉴赏专家的鉴赏能力。鉴赏专家的目标是通过上面的训练成为高水平的鉴赏专家，造假专家的目标是通过上面的训练成为高水平的造假专家，造出的工艺品能以假乱真。数学描述国宝是真实的，用pdata(x)p_{data}(x)pdata(x)来描述，假设有N个国宝N个国宝N个国.
复制链接

扫一扫

专栏目录