机器学习-36-GAN-03-Conditional GAN(有条件的GAN)

最新推荐文章于 2025-04-06 14:17:02 发布

迷雾总会解

最新推荐文章于 2025-04-06 14:17:02 发布

阅读量9.1k

点赞数 11

分类专栏：李宏毅机器学习文章标签：神经网络机器学习

本文链接：https://blog.csdn.net/qq_44766883/article/details/112615786

版权

李宏毅机器学习专栏收录该内容

64 篇文章

订阅专栏

条件生成对抗网络（Conditional GAN）是一种改进的GAN模型，通过引入条件信息，如文本描述或输入图片，来控制生成器的输出。在文本到图像生成任务中，Conditional GAN可以避免传统监督方法产生的模糊图像，生成更符合条件的清晰图像。StackGAN则是Conditional GAN的一种实现，通过两个阶段生成高分辨率的图像。在语音增强场景下，Conditional GAN同样能提升传统方法的性能。此外，Conditional GAN也被应用于视频生成和图像到图像转换，如黑白转彩色、手绘转真实图。PatchGAN解决了全图评估导致的过拟合和训练时间长的问题，通过局部评估提高效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

Conditional GAN

Text-to-Image

Traditional supervised approach

对于一个依据文字生成图像的问题，我们传统的做法就是训练一个NN，然后输入一个文字，输出对应一个图片，我们希望图片与目标图片越接近越好。

这样做有什么问题？我们来看一下，例如文字：train对应的图片有很多张。例如下面的火车有正面，有侧面的，如果用传统的NN来训练，模型会想让火车长得像左边，又像一个右边的，这样的结果是不好的。模型会想产生多张图像的平均，结果就会很模糊。

Conditional GAN

Conditional，意思是条件，所以 Conditional GAN 的意思就是有条件的GAN。Conditional GAN 可以让 GAN 产生的结果符合一定的条件，即可以通过人为改变输入的向量（记不记得我们让生成器生成结果需要输入一个低维向量），控制最终输出的结果。

这种网络与普通 GAN 的区别在于输入加入了一个额外的 condition（比如在 text-to-image 任务中的描述文本），并且在训练的时候使得输出的结果拟合这个 condition。

此外如果判别器还是以前的那样的话，肯定是不行的，因为这样训练出来的生成器会无视输入的conditional vector；因为判别器只会看你的图片是不是高质量，所以生成器只要生成高质量就行了，可以完全无视其他input信息。

我们希望的是机器能够按照我们的input产生图片，因此需要变形。此时的判别器的输入只看生成器的输出，还要看conditional vector。这时候判别器有两个任务：

图片质量好不好（图片是不是真实的）
图片是否和输入的条件匹配。就算质量高但是不匹配的话，也是低分。

上图的火车的例子中：

右上角：符合train的条件，并且生成的图像清晰，scalar=1
左下角：不符合cat的条件，但是生成的图像清晰，scalar=0
右下角：符合train的条件，但是生成的图像清晰，scalar=0

Algorithm(算法)

首先随机初始化，然后进行下面迭代：

训练判别器：（固定生成器）

首先从database中抽取m个样本,由于是condition GAN，所以每个样本都是文字 vector c 和image的pair。（得到真实图片对）
然后再从一个分布中抽取m个vector z；然后m个vector，每一个都加上一个condition vector，表示为（c，z）
然后将（c，z）输入生成器，生成m张image $\tilde{x}$ 。（得到生成图片对）
然后进入database中随机选取m个真实图片 $\hat{x}$ （用于训练非对应的情况）（得到没有标签的真实图片，然后和之前真实图片标签进行配对；变成真实图片假标签对）
然后计算损失：对于sample的正确的一对就给高分，文字和随机生成图片给低分，文字和不匹配的真实图片也给低分。我们去最大这个损失，然后计算梯度，梯度上升。

然后训练生成器：（固定判别器）

随机产生m个噪声，随机从database中抽取m个文字。通过生成器得到G(C,Z)，然后经过判别器得到D(G(C,Z)),更改G中的参数，使得它的得分最高，骗过判别器。

Conditional GAN - Discriminator

具体设计条件GAN判别器，有两种方式：

图片x经过一个网络变成一个code，一句话经过网络也变成一个code；把这两种code组合在一起丢到网络里面，输出一个数值。
首先让图片经过一个网络，输出一个分数（用于判断图片是否真实），同时这个网络也输出一个code，这个code和一句话结合起来丢到另外一个网络里，也输出一个分数（图片和文字是否匹配）；其实两种分数拆开比较合理

这两种方式，前者更为常用，但李宏毅老师认为后者更加合理，它用两个神经网络分别对输出结果的质量以及条件符合程度独立进行判别。

正如我们前面的算法中所提及的，Conditional 的训练和其它 GAN 不同，它需要三种样本：

期望输出为1的条件和与条件相符的训练样本；
期望输出为0的条件和与条件不符的训练样本；
期望输出为0的条件和生成器的输出。

学生作业举例

学生做的效果：

上图中，根据我们选择的头发颜色以及眼睛颜色的不同，GAN生成的头像的具体特征也会不同。

Stack GAN

对于现有模型GAN来说，要实现高分辨率并不容易，首先，简单的在GAN模型中添加更多的上采样层用于生成高分辨率图像（例如，256×256）的方法通常导致 训练不稳定并产生无意义的输出,如下图所示：

除此，GAN 生成高维图片的主要问题在于，自然图像分布与模型分布在高维空间上几乎不交叠。当要生成的图像分辨率增大时，该问题更加明显。

针对上面的问题，有以下方法来进行解决：

变分自动编码器（VAE）提出了以最大化数据似然的下限为目标的概率图模型。
利用神经网络模拟像素空间的条件分布的自回归模型（例如PixelRNN）c.生成对抗网络（GAN）[已经显示出有希望生成清晰图像的性能。但是训练的不稳定性使得GAN模型很难生成高分辨率图像,基于能量的 GAN( energy-based GAN)也被提出用于更稳定的训练行为.
超分辨率方法（super-resolution methods）只能为低分辨率图像添加有限的细节。ansimov等通过学习估计文本和生成图像之间的对应的AlignDRAW模型。Reed等使用条件 PixelCNN 来使用文本描述和对象位置约束来生成图像。Nguyen等人使用近似 Langevin 抽样的方法来生成。

这里提出了一种新的model来解决这个问题：

提出了一种新的叠加生成对抗网络（stackgan），用于从文本描述中合成照片般逼真的图像。它将生成高分辨率图像的困难问题分解为更多可管理的子问题-----解决细节缺失问题，分辨率变高。
提出了一种新的条件增强技术（CA）来稳定条件GAN的训练，同时也提高了条件GAN训练的多样性。
广泛的定性和定量实验证明整体模型设计的有效及单个组件的效果。

整个model分为两个阶段：

stack-I 第一阶段：勾画出在给定的文字描述上条件化的对象的原始形状和基本颜色，并从随机噪声向量中绘制背景布局，产生低分辨率图像。
stack-II 第二阶段：修正了第一阶段的低分辨率图像中的缺陷，并通过再次读取文字描述来完成对象的细节，从而产生高分辨率的照片般逼真的图像。

这里就不深究了，有兴趣可以看以下文献：

👉 StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks
👉 【GAN ZOO翻译】StackGAN：Text to Photo-realistic Image Synthesis with Stacked GAN 使用堆叠的GAN从文本中生成照片一样逼真的图片
👉 论文阅读笔记：StackGAN