GAN网络（理论）

最新推荐文章于 2024-06-28 15:45:30 发布

qq_39862223

最新推荐文章于 2024-06-28 15:45:30 发布

阅读量1.3k

点赞数 1

分类专栏： GAN 文章标签：神经网络

本文链接：https://blog.csdn.net/qq_39862223/article/details/114262928

版权

本文深入解析了生成对抗网络（GANs）的工作原理，包括其基本结构和数学表示。介绍了CGAN、DCGAN和AC_GAN三种GAN的变体，详细阐述了它们的网络结构、损失函数和训练策略，展示了GAN在图像生成和模式控制上的应用与优势。

摘要由CSDN通过智能技术生成

GAN网络（理论）：https://blog.csdn.net/qq_39862223/article/details/114262928
GAN网络（实验）：https://blog.csdn.net/qq_39862223/article/details/114283108

1.GAN能做什么

GAN的初衷就是生成不存在于真实世界的数据，类似于使得 AI具有创造力或者想象力。应用场景如下：

AI作家，AI画家等需要创造力的AI体；
将模糊图变清晰(去雨，去雾，去抖动，去马赛克等)，这需要AI具有所谓的“想象力”，能脑补情节；
进行数据增强，根据已有数据生成更多新数据供以feed，可以减缓模型过拟合现象。

2.GAN浅析

2.1 GAN的基本结构

GAN的基本原理其实非常简单，这里以生成图片为例进行说明。假设我们有两个网络，G（Generator）和D（Discriminator）。正如它的名字所暗示的那样，它们的功能分别是：

G是一个生成图片的网络，它接收一个随机的噪声z，通过这个噪声生成图片，记做G(z)。
D是一个判别网络，判别一张图片是不是“真实的”。它的输入参数是x，x代表一张图片，输出D（x）代表x为真实图片的概率，如果为1，就代表100%是真实的图片，而输出为0，就代表不可能是真实的图片。

在训练过程中，生成网络G的目标就是尽量生成真实的图片去欺骗判别网络D。而D的目标就是尽量把G生成的图片和真实的图片分别开来。这样，G和D构成了一个动态的“博弈过程”。最后博弈的结果是什么？在最理想的状态下，G可以生成足以“以假乱真”的图片G(z)。对于D来说，它难以判定G生成的图片究竟是不是真实的，因此D(G(z)) = 0.5。

这样我们的目的就达成了：我们得到了一个生成式的模型G，它可以用来生成图片。

例如，我们需要球员在球场上能有好的表现。而球员一开始都是初学者，这个时候就需要一个教练员来指导他们训练，告诉他们训练得怎么样，直到真的能够达到上场的标准。而这个教练就相当于判别器。

下面我们举另外一个手写字的例子来进行进一步窥探GAN的结构。
在这里插入图片描述
我们现在拥有大量的手写数字的数据集，我们希望通过GAN生成一些能够以假乱真的手写字图片。主要由如下两个部分组成：

定义一个模型来作为生成器（上图中蓝色部分Generator），能够输入一个向量，输出手写数字大小的像素图像。
定义一个分类器来作为判别器（上图中红色部分Discriminator）用来判别图片是真的还是假的（或者说是来自数据集中的还是生成器中生成的），输入为手写图片，输出为判别图片的标签。

2.2 GAN的数学表示

直接摘录原论文中的公式
在这里插入图片描述
简单分析一下这个公式：

整个式子由两项构成。x表示真实图片，z表示输入G网络的噪声，而G(z)表示G网络生成的图片。
D(x)表示D网络判断真实图片是否真实的概率（因为x就是真实的，所以对于D来说，这个值越接近1越好）。而D(G(z))是D网络判断G生成的图片的是否真实的概率。
G的目的：上面提到过，D(G(z))是D网络判断G生成的图片是否真实的概率，G应该希望自己生成的图片“越接近真实越好”。也就是说，G希望D(G(z))尽可能得大，这时V(D, G)会变小。因此我们看到式子的最前面的记号是min_G。
D的目的：D的能力越强，D(x)应该越

最低0.47元/天解锁文章

qq_39862223

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
GAN网络（理论）

1.GAN能做什么GAN的初衷就是生成不存在于真实世界的数据，类似于使得 AI具有创造力或者想象力。应用场景如下：AI作家，AI画家等需要创造力的AI体；将模糊图变清晰(去雨，去雾，去抖动，去马赛克等)，这需要AI具有所谓的“想象力”，能脑补情节；进行数据增强，根据已有数据生成更多新数据供以feed，可以减缓模型过拟合现象。2.GAN浅析2.1 GAN的基本结构GAN的主要结构包括一个生成器 G（Generator）和一个判别器 D（Discriminator）。例如，我们需要球员在球场
复制链接

扫一扫

专栏目录