生成对抗网络GAN学习笔记

最新推荐文章于 2024-06-10 21:30:14 发布

躺平攻城狮

最新推荐文章于 2024-06-10 21:30:14 发布

阅读量627

点赞数 26

文章标签：生成对抗网络学习笔记

本文链接：https://blog.csdn.net/PleaseBeStrong/article/details/136262000

版权

1. 何为GAN

生成式对抗网络是14年Ian J. Goodfellow提出的，其原理是同时训练两个模型，分别为用于捕获数据分布的生成模型 $G$ 和用于判别数据是真实数据还是伪造数据的判别模型 $D$ .

在训练过程中，生成器逐渐变得更擅长创建看起来真实的图像（贴合原数据集），而鉴别器则变得更擅长区分它们。当鉴别器无法分辨生成图像真伪时，该过程达到平衡（D(G(z)=0.5）。

更细致的来说 G（Generator）和D（Discriminator），在开始的时候这两个模型都是没有经过训练的，这两个模型一起对抗训练，生成模型产生一张图片去欺骗判别模型，然后判别模型去判断这张图片是真是假，最终在这两个模型训练的过程中，两个模型的能力越来越强，最终达到稳定状态，是不是就是零和博弈的思想！！

G是一个生成图片的网络，它接收一个随机的噪声z，通过这个噪声生成图片，记做G(z)。

D是一个判别网络，判别一张图片是不是真实的。它的输入参数是x，x代表一张图片，输出D(x) 代表x为真实图片的概率，如果为1 ---- 100%是真实的图片，而输出为0 ---- 伪造图片。

2. 框架

在这里插入图片描述上图是该模型训练的一个伪代码，值得注意的是跟下面要讲的损失函数相同，更新判别模型需要通过增加梯度，而更新生成模型要通过减少梯度。（不断迭代直到两者谁也挑不出谁的毛病）

2.1 损失函数

在这里插入图片描述上图截取自原论文当中，我们可以看到损失函数有两部分构成，下面就分别来解读一下：

上述损失函数中， $z$ 代表加入的噪声， $x$ 代表真实的图片，而 $G (z)$ 就是生成网络生成出来的图片
首先最大化 $D$ ，此时假设 $G (z)$ 就是我们生成出来的图片，而判别其为假则是我们的终极目标，就是 $D (G (z))$ ->0，也就是公式里的 1-D(G(z)) 尽可能的大，这样转换形式后就会跟前一项统一！！
其次最小化 $G$ , 此时就没有前一项什么事了，生成模型的目标就是让判别模型检测不出来，做到以假乱真.公式来说就是 $D (G (z))$ ->1，也就是公式里的 1-D(G(z)) 尽可能的小！！

2.2 迭代更新

我们已经得到了生成模型和判别模型的损失函数，这样分开看其实就是两个单独的模型，针对不同的模型可以按照自己的需要去是实现不同的误差修正，我们也可以选择最常用的反向传播做为误差修正算法，更新模型参数。

3. 优点

强大的生成能力：GAN可以生成非常真实、高质量的样本，这是其他生成模型（如玻尔兹曼机和GSNs）难以比拟的。GAN可以产生清晰、逼真的图像，这在许多应用中都非常有用，如图像生成、图像修复、超分辨率等。
无监督学习：GAN采用无监督的学习方式，这意味着它可以在没有标签的数据上进行训练。这在现实世界中非常有用，因为通常无标签的数据比有标签的数据要多得多。
强大的表达能力：GAN可以在潜在空间（向量空间）中执行算数运算，并将其转换为对应特征空间内的运算。这使得GAN可以生成具有特定属性的样本，例如通过修改潜在空间中的向量来改变生成图像的某些特征。

4. 缺点

训练不稳定：GAN的训练过程非常不稳定，可能会出现梯度消失、模式崩溃等问题。这些问题使得GAN的训练变得非常困难，需要仔细调整参数和选择合适的网络结构。
难以达到纳什均衡：GAN的训练目标是达到纳什均衡，但在实践中这很难实现。即使训练过程中看起来有所进展，也可能只是在一个不稳定的振荡状态周围徘徊，而不是真正达到了纳什均衡。

它是指在一个博弈过程中，无论其他参与者采取何种策略，每位参与者选择的策略都是最优的，即在给定其他人策略的情况下，没有人有足够理由改变自己的策略。
纳什均衡可以是纯策略纳什均衡，也可以是混合策略纳什均衡。纯策略纳什均衡是指所有参与者都只使用确定性的策略，而混合策略纳什均衡则允许参与者使用随机性的策略。混合策略纳什均衡在概率计算中达到支付最优。
纳什均衡理论的一个重要贡献是它证明了在一定条件下，纳什均衡一定存在。这个条件就是每个参与者都只有有限种策略选择，并且允许混合策略。这一存在性定理为我们提供了理解和分析博弈问题的重要工具。

不适合处理离散形式的数据：由于GAN是通过连续的数值运算来进行训练的，因此它不适合处理离散形式的数据，如文本或音频。这限制了GAN在某些领域的应用。
模型过于自由而不可控：GAN不需要预先建模，这使得模型非常自由，但同时也变得不可控。对于较大的图像或较多的像素，基于简单GAN的方式可能不太可控，导致生成的样本质量下降。