[GAN学习系列2] GAN的起源

最新推荐文章于 2025-02-22 19:31:39 发布

spearhead_cai

最新推荐文章于 2025-02-22 19:31:39 发布

阅读量1.8k

点赞数

分类专栏：机器学习深度学习算法文章标签： GAN 机器学习深度学习图像生成

本文链接：https://blog.csdn.net/lc013/article/details/83689163

版权

本文是GAN学习系列的第二篇，探讨了GAN的起源，包括基本原理、对抗样本的概念，以及生成器和判别器的作用。文章详细阐述了GAN如何通过两个神经网络的博弈生成逼真图像，并分析了GAN的训练策略、优点和缺点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文大约 5000 字，阅读大约需要 10 分钟

这是 GAN 学习系列的第二篇文章，这篇文章将开始介绍 GAN 的起源之作，鼻祖，也就是 Ian Goodfellow 在 2014 年发表在 ICLR 的论文–Generative Adversarial Networks”，当然由于数学功底有限，所以会简单介绍用到的数学公式和背后的基本原理，并介绍相应的优缺点。

基本原理

在[GAN学习系列] 初识GAN中，介绍了 GAN 背后的基本思想就是两个网络彼此博弈。生成器 G 的目标是可以学习到输入数据的分布从而生成非常真实的图片，而判别器 D 的目标是可以正确辨别出真实图片和 G 生成的图片之间的差异。正如下图所示：

上图给出了生成对抗网络的一个整体结构，生成器 G 和判别器 D 都是有各自的网络结构和不同的输入，其中 G 的输出，即生成的样本也是 D 的输入之一，而 D 则会为 G 提供梯度进行权重的更新。

那么问题来了，如果 D 是一个非常好的分类器，那么我们是否真的可以生成非常逼真的样本来欺骗它呢？

对抗样本

在正式介绍 GAN 的原理之前，先介绍一个概念–对抗样本(adversarial example)，它是指经过精心计算得到的用于误导分类器的样本。例如下图就是一个例子，左边是一个熊猫，但是添加了少量随机噪声变成右图后，分类器给出的预测类别却是长臂猿，但视觉上左右两幅图片并没有太大改变。

所以为什么在简单添加了噪声后会误导分类器呢？

这是因为图像分类器本质上是高维空间的一个复杂的决策边界。当然涉及到图像分类的时候，由于是高维空间而不是简单的两维或者三维空间，我们无法画出这个边界出来。但是我们可以肯定的是，训练完成后，分类器是无法泛化到所有数据上，除非我们的训练集包含了分类类别的所有数据，但实际上我们做不到。而做不到泛化到所有数据的分类器，其实就会过拟合训练集的数据，这也就是我们可以利用的一点。

我们可以给图片添加一个非常接近于 0 的随机噪声，这可以通过控制噪声的 L2 范数来实现。L2 范数可以看做是一个向量的长度，这里有个诀窍就是图片的像素越多，即图片尺寸越大，其平均 L2 范数也就越大。因此，当添加的噪声的范数足够低，那么视觉上你不会觉得这张图片有什么不同，正如上述右边的图片一样，看起来依然和左边原始图片一模一样；但是，在向量空间上，添加噪声后的图片和原始图片已经有很大的距离了！

为什么会这样呢？

因为在 L2 范数看来，对于熊猫和长臂猿的决策边界并没有那么远，添加了非常微弱的随机噪声的图片可能就远离了熊猫的决策边界内，到达长臂猿的预测范围内，因此欺骗了分类器。

除了这种简单的添加随机噪声，还可以通过图像变形的方式，使得新图像和原始图像视觉上一样的情况下，让分类器得到有很高置信度的错误分类结果。这种过程也被称为对抗攻击(adversarial attack)，这种生成方式的简单性也是给 GAN 提供了解释。