【PyTorch实战】生成对抗网络GAN：生成动漫人物头像

镰刀韭菜

已于 2022-10-14 13:15:47 修改

阅读量3.3k

点赞数 6

分类专栏： # PyTorch学习笔记文章标签： pytorch 生成对抗网络深度学习 GAN DCGAN

于 2022-06-25 00:39:35 首次发布

本文链接：https://blog.csdn.net/ARPOSPF/article/details/125426171

版权

PyTorch学习笔记专栏收录该内容

7 篇文章 1 订阅

订阅专栏

生成对抗网络GAN：生成动漫人物头像

回顾：生成模型和判别模型
1. GANs的基本思想和训练过程
2. GANs的值函数
3. GANs如何避开大量概率推断计算？
4. GANs在实际训练中会遇到什么问题？
5. 用GAN生成动漫人物的头像
参考资料

Generative Adversarial Networks, 简称GAN，是一个训练生成模型的新框架。其变种有： WGAN、 InfoGAN、 f-GANs、 BiGAN、 DCGAN、 IRGAN等。

回顾：生成模型和判别模型

首先简要介绍一下生成模型（Generative model）与判别模型（Discriminative mode）的概念：

生成模型：对联合概率进行建模，从统计的角度表示数据的分布情况，刻画数据是如何生成的，收敛速度快，例如朴素贝叶斯，GDA，HMM等。
判别模型：对条件概率 $P (Y ∣ X)$ 进行建模，不关心数据如何生成，主要是寻找不同类别之间的最优分类面，例如LR，SVM等。

判别模型在深度学习乃至机器学习领域取得了巨大成功，其本质是将样本的特征向量映射成对应的label；而生成模型由于需要大量的先验知识去对真实世界进行建模，且先验分布的选择直接影响模型的性能，因此此前人们更多关注于判别模型方法。生成式对抗网络（Generative Adversarial Networks，GANs）是蒙特利尔大学的Goodfellow Ian于2014年提出的一种生成模型，在之后引起了业内人士的广泛关注与研究。

1. GANs的基本思想和训练过程

GANs的主要框架包括两个部分：生成器（Generator）和判别器（Discriminator）两个部分。生成器用来合成“假”样本，判别器用来判断输入的样本是真实的还是合成的。
具体来说：生成器从先验分布中采得随机信号，经过神经网络的变换，得到模拟样本；判别器既接受来自生成器的模拟样本，也接收来自实际数据集的真实样本，但是并不告诉判别器样本来源，需要它自己判断。

总之，生成器要尽可能造出样本迷惑判别器，而判别器则尽可能识别出来自生成器的样本。理想情况下，生成器和判别器最终达到一种平衡，双方都臻于完美，彼此都没有更进一步的空间。
GANs模型的框架图
GANs采用对抗策略进行模型训练。具体训练时，采用生成器和判别器交替优化的方式。

TensorFlow实现中，生成模型与判别模型的参数分别定义为params_gen, params_dis，在选择优化器的同时，指定需要优化参数是params_gen还是params_dis即可训练模型是生成模型或者判别模型。

（1）在训练判别器时，先固定生成器 $G(\cdot)$ ；然后利用生成器随机模拟产生样本 $G (z)$ 作为负样本（z是一个随机变量），并从真实数据集中采样获得正样本 $X$ ；将这些正负样本输入到判别器 $D(\cdot)$ 中，根据判别器的输出（即 $D (X)$ 或者 $D (G (z))$ ）和样本标签来计算误差；最后利用误差反向传播算法来更新判别器 $D(\cdot)$ 的参数。判别器的训练过程如下图所示：
GANs中的判别器的训练过程
（2）在训练生成器时，先固定判别器 $D(\cdot)$ ；然后利用当前生成器 $G(\cdot)$ 随机模拟产生样本 $G (z)$ ，并输入到判别器 $D(\cdot)$ 中；根据判别器的输出 $D (G (z))$ 和样本标签来计算误差，最后利用误差反向传播算法来更新生成器 $G(\cdot)$ 的参数，如下图所示：
GANs中生成器的训练

2. GANs的值函数

GANs是一个双人MiniMax游戏。理想情况下游戏最终会达到一个纳什均衡点，此时记生成器为 $G *$ ，判别器为 $D *$ ，回答如下问题：

此时的解 $(G *, D *)$ ，以及对应的值函数的取值。
在未达到均衡点时，将生成器G固定，寻找当下最优的判别器 $D_G^*$ ，请给出 $D_G^*$ 和此时的值函数。
进一步地，倘若固定D而将G优化到底，那么解 $G_D^*$ 和此时的值函数是什么？

因为判别器D试图识别实际数据为真实样本，识别生成器生成的数据为模拟样本，所以这是一个二分类问题，损失函数为Negative Log-Likelihood，也称为Categorical Cross-Entropy Loss，即:
[1]
$\mathcal{L(D)}=-\int p(x)[p(data|x)\log{D(x)}+p(g|x)\log{(1-D(x))}]dx$
其中， $D (x)$ 表示判别器预测x为真实样本的概率， $p (d a t a ∣ x)$ 和 $p (g ∣ x)$ 表示x分属真实数据集和生成器这两类的的概率。样本x的来源一半是实际数据集，一半是生成器， $p_{src}(data)=p_{src}(g)=0.5$ 。

用 $p_{data}(x)\doteq p(x|data)$ 表示从实际数据集得到x的概率， $p_g(x)=\doteq p(x|g)$ 表示从生成器得到x的概率，有x的总概率：
[2]
$p(x)=p_{src}(data)p(x|data)+p_{src}(g)p(x|g)$
替换[1]中的 $p (x) p (d a t a ∣ x)$ 为 $p_{src}(data)p_data(x)$ ，以及 $p (x) p (g ∣ x)$ 为 $p_{src}(g)p_g(x)$ ，即可得到最终的目标函数：
[3]
$\mathcal{L}(D)=-\frac{1}{2}(\mathbb{E}_{x\sim {p_{data}}(x)}[\log D(x)]+\mathbb{E}_{x\sim p_g(x)}[\log (1-D(x))])$
在此基础上得到值函数：
[4]
$V(G,D)=\mathbb{E}_{x\sim p_{data}(x)}[\log D(x)]+\mathbb{E}_{x\sim p_g(x)}[\log (1-D(x))]$
判别器D最大化上述值函数，生成器G则最小化它，整个MiniMax游戏可表示为: $min_{G}\max_{D}{V(G,D)}$ 。

训练中，给定生成器G，寻找当下最优判别器 $D_G^*$ 。对于单个样本x，最大化 $max_{D} {p_{data}(x)\log{D(x)}+p_g(x)\log{(1-D(x))}}$ 的解为 $\hat{D}(x)=p_{data}(x)/[p_{data}(x)+p_g(x)]$ ，外面套上对x的积分就得到 $max_{D}{V(G,D)}$ ，解由单点变成一个函数解：
[5]
$D_G^*=\frac{p_{data}}{p_{data}+p_g}$
此时， $\min_G {V(G, D_G^*)}=\min_G \{-log 4+2 \cdot JSD(p_{data}||p_g)\}$ ，其中 $JSD(\cdot)$ 是JS距离（Jensen-Shannon Divergence）。

- KL散度：用来衡量两个分布之间的差异，等于一个交叉熵减去一个信息熵（交叉熵损失函数的由来），具有两个性质：非负性（用Jenson‘s inequality 证明）
不对称性。
- JS(Jenson’s Shannon)散度：一般地，JS散度是对称的，其取值是0到1之间。如果两个分布P,Q离得很远，完全没有重叠的时候，那么KL散度值是没有意义的，而JS散度值是一个常数。这就意味这这一点的梯度为 0。梯度消失了。

JS散度的缺陷：当两个分布完全不重叠时，即便两个分布的中心距离有多近，其JS散度是一个常数，以至于梯度为0，无法更新。

为什么会出现两个分布没有重叠的现象？从理论和经验上来说，真实的数据分布通常是一个低维流形，简单地说就是数据不具备高维特性，而是存在一个嵌入在高维度的低维空间内。

由此看出，优化生成器G实际是在最小化生成样本分布与真实样本分布之间的JS距离。最终，达到均衡点是 $JSD(p_{data}||p_g)$ 的最小值点，即 $p_g=p_{data}$ 时， $JSD(p_{data}||p_g)$ 取到零，最优解 $G^*(z)=x\sim p_{data}(x), D^*(x)\equiv \frac{1}{2}$ ，值函数 $V(G*,D*)=-\log 4$ 。

进一步地，训练时如果给定D求解最优G，可以得到什么？假设 $G^{'}$ 表示前一步的生成器，D是 $G^{'}$ 下的最优判别器 $D_G^*$ 。那么求解最优G的过程为：
[6]
$\arg {\min_{G}}V(G,D_G^*)=\arg \min_G KL(p_g||\frac{p_{data}+p_{g'}}{2})-KL(p_g||p_{g'})$
由此，可以得出以下两个结论：
（1）优化G的过程是让G远离前一步的 $G^{'}$ ，同时接近分布 $\frac{p_{data}+p_{g'}}{2}$ 。
（2）达到均衡点时 $p_{g'}=p_{data}$ ，有 $arg {\min_{G}}V(G,D_G^*)=\arg \min_G 0$ ，如果用这时的判别器去训练一个全新的生成器 $G_{new}$ ，理论上可能啥也训练不出来。
GANs模型算法描述

3. GANs如何避开大量概率推断计算？

传统概率生成模型方法，如马尔科夫随机场、贝叶斯网络等，会涉及大量难以完成的概率推断计算，GANs是如何避开这类计算的？

传统概率生成模型要定义一个概率分布表达式 $P (X)$ ，通常是一个多变量联合概率分布的密度函数 $p(X_1,X_2,...,X_N)$ ，并基于此做最大似然估计。这个过程中少不了概率推断计算，比如计算边缘概率 $P(X_i)$ 、条件概率 $P(X_i|X_j)$ 以及作分母的Partition Function等。当随机变量很多时，概率模型会变得十分复杂。

GANs在刻画概率生成模型时，并不对概率密度函数 $p (X)$ 直接建模，而是通过制造样本x，间接体现出分布 $p (X)$ 。具体地：
如果随机变量Z和X之间满足某种映射关系 $X = f (Z)$ ，那么它们的概率分布 $p_X(X)$ 和 $p_Z(Z)$ 也存在某种映射关系。当 $Z,X\in \mathbb{R}$ 都是一维随机变量时， $p_X=\frac{df(Z)}{dX}p_Z$ ；当 $Z, X$ 是高维随机变量时，导数变成雅可比矩阵，即 $p_X=J p_Z$ 。因此，已知Z的分布，对随机变量间的转换函数 $f$ 直接建模，就唯一确定了 $X$ 的分布。

这样，避开了大量复杂的概率计算，而且给 $f$ 更大的发挥空间，可以用神经网络来训练 $f$ 。除了经典的卷积神经网络和循环神经网络，还有ReLU激活函数、批量归一化、Dropout等，都可以自由地添加到生成器的网络中，大大增强生成器的表达能力。

4. GANs在实际训练中会遇到什么问题？

最小化目标函数 $\mathbb{E}_{z\sim p(z)}[\log (1-D(G(z;\theta_g)))]$ 求解G会遇到什么问题？如何解决。

在实际训练中，早期阶段生成器G很差，生成的模拟样本很容易被判别器D识别，使得D回传给G的梯度极其小，达不到训练目的，这个现象称为优化饱和。

为什么会这样呢？将D的Sigmoid输出层的前一层记为 $o$ ，那么 $D (x)$ 可表示成 $D (x) = S i g m o i d (o (x))$ ，此时有
[7]
$\nabla {D(x)}= \nabla Sigmoid(o(x))=D(x)(1-D(x))\nabla o(x)$
，因此训练G的梯度为：
[8]
$\nabla {\log {(1-D(G(z;\theta _g)))}}= -D(G(z;\theta _g))\nabla o(G(z;\theta _g))$
当D很容易认出模拟样本时，意味着认错模拟样本的概率几乎为零，即 $D(G(z;\theta_g))\rightarrow 0$ 。假定 $|\nabla o(G(z;\theta_g))|<C$ ，C是一个常量，则可推出：
[9]
$\lim_{D(G(z;\theta_g)) \to 0}\nabla \log (1-D(G(z;\theta _g)))=-\lim_{D(G(z;\theta _g)) \to 0} D(G(z;\theta _g))\nabla o(G(z;\theta _g)) =0$
故G获得的梯度基本为零，这说明D强大后对G的帮助反而微乎其微。

解决方法是将 $\log (1-D(G(z;\theta_g)))$ 变为 $\log (D(G(z;\theta_g)))$ ，形式上有一个负号的差别，故让后者最大等效于让前者最小，二者在最优时解相同。
更改后的目标函数的梯度是：
[10]
$\nabla \log (D(G(z;\theta_g)))=(1-D(G(z;\theta_g)))\nabla o(G(z;\theta_g))$
[11]
$\lim_{D(G(z;\theta_g)) \to 0} \nabla \log (D(G(z;\theta_g)))=\nabla o(G(z;\theta_g))$
，即使 $D(G(z;\theta_g))$ 趋于零， $\nabla \log (D(G(z;\theta_g)))$ 也不会消失，仍能给生成器提供有效的梯度。

5. 用GAN生成动漫人物的头像

GAN解决了非监督学习问题中的著名问题：给定一批样本，训练一个系统能够生成类似的新样本。在本案例中，主要包含两个子网络：

生成器（generator）：输入一个随机噪声，生成一张图片。
判别器（discriminator）：判断输入的图片是真图片还是假图片。

这里我们采用广泛使用的DCGAN（Deep Convolutional Generative Adversarial Networks）结构，即采用全卷积网络，其结构如下图所示。
DCGAN中生成器网络结构图
网络的输入是一个100维的噪声，输出是一个3×64×64的图片。这里的输入可以看成是一个100×1×1的图片，通过上卷积慢慢增大为4×4、8×8、16×16、32×32和64×64。

上卷积，或称为转置卷积，是一种特殊的卷积操作，类似于卷积操作的逆运算。
当卷积的stride为2时，输出相比输入会下采样到一半的尺寸；而当上卷积的stride为2时，输出会上采样到输入的两倍尺寸。

这种上采样的做法可以理解为图片的信息保存于100个向量之中，神经网络根据这100个向量描述的信息，前几步的上采样先勾勒出轮廓、色调等基础信息，后几步上采样则慢慢完善细节。网络越深，细节越详细。

DCGANs的基本架构就是使用几层“反卷积”（Deconvolution）。传统的CNN是将图像的尺寸压缩，变得越来越小，而反卷积是将初始输入的小数据（噪声）变得越来越大（但反卷积并不是CNN的逆向操作），例如在上面这张图中，从输入层的100维noise，到最后输出层64x64x3的图片，从小维度产生出大的维度。反卷积的示意图如下所示，2x2的输入图片，经过3x3 的卷积核，可产生4x4的feature map：
反卷积操作示意图
由于反卷积存在于卷积的反向传播中。其中反向传播的卷积核矩阵是前向传播的转置，所以其又可称为transport convolution。只不过我们把反向传播的操作拿到了前向传播来做，就产生了所谓的反卷积一说。但是transport convolution只能还原信号的大小，不能还原其值，因此不是真正的逆操作。

DCGAN的另一个改进是对生成模型中池化层的处理，传统CNN使用池化层（max-pooling或mean-pooling）来压缩数据的尺寸。在反卷积过程中，数据的尺寸会变得越来越大，而max-pooling的过程并不可逆，所以DCGAN的论文里并没有采用池化的逆向操作，而只是让反卷积的滑动步长设定为2或更大值，从而让尺寸按我们的需求增大。另外，DCGAN模型在核上均使用了batch normalization，这使得训练过程更加稳定和可控。

文献[3]将GANs应用于文本转图像（Text to Image），从而可根据特定输入文本所描述的内容来产生特定图像。因此，生成模型里除了输入随机噪声之外，还有一些特定的自然语言信息。所以判别模型不仅要区分样本是否是真实的，还要判定其是否与输入的语句信息相符。网络结构如下图所示：
文本转图像
在本案例中, DCGAN中，判别器的结构和生成器对称：生成器中采用上采样的卷积，判别器中就采用下采样的卷积，生成器是根据噪声输出一张６４×６４×３的图片，而判别器则是根据输入的６４×６４×３的图片输出图片属于正负样本的分数（概率）。

在生成图像中，我们需要不断的扩大图像的尺寸。ConvTranspose2d是其中一个方法。DCGAN论文中，可以称为fractionally-strided convolutions，也有的称为deconvolutions, 但实际上并不是. 为了简化说明，暂且称为"逆卷积".
首先, 理解什么是卷积。对于一个图片A，设定它的高度和宽度分别为Height，Width，通道数为Channels。然后用卷积核（kernel * kernel）去做卷积（这里假定卷积核为正方形，长方形卷积核类似），步长为stride(同样的，不区分高宽方向)，做填充padding。卷积后得到图片B。也就是说, 就是利用一个卷积操作将A变成B。

然后,理解什么是逆卷积。如下图所示：
逆卷积示意图
逆卷积操作的输入就是特征图y, 卷积核设置同上。要得到上面的特征图x。
那么, 怎么求逆卷积ConvTranspose2d（fractionally-strided convolutions）？

nn.ConvTranspose2d(): 在由多个输入平面组成的输入图像上应用二维转置卷积运算符。
参数：
- in_channels（int）–输入图像中的通道数
- out_channels（int）–卷积产生的通道数
- kernel_size（int或元组）–卷积内核的大小
- stride（int或tuple，可选）–卷积的步幅。默认值：1
- padding（int或tuple，可选）– 零填充将添加到输入中每个维度的两侧。默认值：0 dilation * (kernel_size - 1) - padding
- output_padding（int或tuple，可选）–在输出形状的每个尺寸的一侧添加的附加大小。默认值：0
- groups（int，可选）–从输入通道到输出通道的阻塞连接数。默认值：1
- bias（bool，可选）–如果为True，则向输出添加可学习的偏见。默认：True
- dilation（int或tuple，可选）–内核元素之间的间距。默认值：1

Input: $N,C_{in},H_{in},W_{in})$
Output: $N,C_{out},H_{out},W_{out})$
$H_{out}=(H_{in}−1)×stride[0]−2×padding[0]+dilation[0]×(kernel_size[0]−1)+output_padding[0]+1$
$W_{out}=(W_{in}−1)×stride[1]−2×padding[1]+dilation[1]×(kernel_size[1]−1)+output_padding[1]+1$

首先看生成器和判别器的代码：

# -*- coding: utf-8 -*-#

# ----------------------------------------------
# Name:         model.py
# Description:
# Author:       PANG
# Date:         2022/6/23
# ----------------------------------------------

# Generator Code

class Generator(nn.Module):
    def __init__(self, ngpu):
        super(Generator, self).__init__()
        self.ngpu = ngpu
        self.main = nn.Sequential(
            # input is Z, going into a convolution
            nn.ConvTranspose2d( nz, ngf * 8, 4, 1, 0, bias=False),
            nn.BatchNorm2d(ngf * 8),
            nn.ReLU(True),
            # state size. (ngf*8) x 4 x 4
            nn.ConvTranspose2d(ngf * 8, ngf * 4, 4, 2, 1, bias=False),
            nn.BatchNorm2d(ngf * 4),
            nn.ReLU(True),
            # state size. (ngf*4) x 8 x 8
            nn.ConvTranspose2d( ngf * 4, ngf * 2, 4, 2, 1, bias=False),
            nn.BatchNorm2d(ngf * 2),
            nn.ReLU(True),
            # state size. (ngf*2) x 16 x 16
            nn.ConvTranspose2d( ngf * 2, ngf, 4, 2, 1, bias=False),
            nn.BatchNorm2d(ngf),
            nn.ReLU(True),
            # state size. (ngf) x 32 x 32
            nn.ConvTranspose2d( ngf, nc, 4, 2, 1, bias=False),
            nn.Tanh()
            # state size. (nc) x 64 x 64
        )

    def forward(self, input):
        return self.main(input)

# Create the generator
netG = Generator(ngpu).to(device)

# Handle multi-gpu if desired
if (device.type == 'cuda') and (ngpu > 1):
    netG = nn.DataParallel(netG, list(range(ngpu)))

# Apply the weights_init function to randomly initialize all weights
#  to mean=0, stdev=0.02.
netG.apply(weights_init)

# Print the model
print(netG)

class Discriminator(nn.Module):
    def __init__(self, ngpu):
        super(Discriminator, self).__init__()
        self.ngpu = ngpu
        self.main = nn.Sequential(
            # input is (nc) x 64 x 64
            nn.Conv2d(nc, ndf, 4, 2, 1, bias=False),
            nn.LeakyReLU(0.2, inplace=True),
            # state size. (ndf) x 32 x 32
            nn.Conv2d(ndf, ndf * 2, 4, 2, 1, bias=False),
            nn.BatchNorm2d(ndf * 2),
            nn.LeakyReLU(0.2, inplace=True),
            # state size. (ndf*2) x 16 x 16
            nn.Conv2d(ndf * 2, ndf * 4, 4, 2, 1, bias=False),
            nn.BatchNorm2d(ndf * 4),
            nn.LeakyReLU(0.2, inplace=True),
            # state size. (ndf*4) x 8 x 8
            nn.Conv2d(ndf * 4, ndf * 8, 4, 2, 1, bias=False),
            nn.BatchNorm2d(ndf * 8),
            nn.LeakyReLU(0.2, inplace=True),
            # state size. (ndf*8) x 4 x 4
            nn.Conv2d(ndf * 8, 1, 4, 1, 0, bias=False),
            nn.Sigmoid()
        )

    def forward(self, input):
        return self.main(input)

# Create the Discriminator
netD = Discriminator(ngpu).to(device)

# Handle multi-gpu if desired
if (device.type == 'cuda') and (ngpu > 1):
    netD = nn.DataParallel(netD, list(range(ngpu)))

# Apply the weights_init function to randomly initialize all weights
#  to mean=0, stdev=0.2.
netD.apply(weights_init)

# Print the model
print(netD)

生成器的搭建相对比较简单，直接使用nn.Sequential将上卷积、激活、池化等操作拼接起来即可，需要注意的是上卷积ConvTranspose2d的使用。当kernel size为4， stride为2， padding为1时，根据公式 $H_{out}=(H_{in}-1)*stride -2*padding+kernel_size$ ，输出尺寸刚好变成输入的两倍。最后一层使用Tanh将输出图片的像素归一化至 $- 11$ ，如果希望归一化至 $01$ ，则需使用Sigmoid。

判别器的网络结构几乎和生成器对称。注意生成器的激活函数用的是ReLU，而判别器使用的是LeakyReLU。二者并无本质区别，更多是经验总结。

损失函数和优化器

# Initialize BCELoss function
criterion = nn.BCELoss()

# Create batch of latent vectors that we will use to visualize
#  the progression of the generator
fixed_noise = torch.randn(64, nz, 1, 1, device=device)

# Establish convention for real and fake labels during training
real_label = 1.
fake_label = 0.

# Setup Adam optimizers for both G and D
optimizerD = optim.Adam(netD.parameters(), lr=lr, betas=(beta1, 0.999))
optimizerG = optim.Adam(netG.parameters(), lr=lr, betas=(beta1, 0.999))

训练过程

# Training Loop

# Lists to keep track of progress
img_list = []
G_losses = []
D_losses = []
iters = 0

print("Starting Training Loop...")
# For each epoch
for epoch in range(num_epochs):
    # For each batch in the dataloader
    for i, data in enumerate(dataloader, 0):

        ############################
        # (1) Update D network: maximize log(D(x)) + log(1 - D(G(z)))
        ###########################
        ## Train with all-real batch
        netD.zero_grad()
        # Format batch
        real_cpu = data[0].to(device)
        b_size = real_cpu.size(0)
        label = torch.full((b_size,), real_label, dtype=torch.float, device=device)
        # Forward pass real batch through D
        output = netD(real_cpu).view(-1)
        # Calculate loss on all-real batch
        errD_real = criterion(output, label)
        # Calculate gradients for D in backward pass
        errD_real.backward()
        D_x = output.mean().item()

        ## Train with all-fake batch
        # Generate batch of latent vectors
        noise = torch.randn(b_size, nz, 1, 1, device=device)
        # Generate fake image batch with G
        fake = netG(noise)
        label.fill_(fake_label)
        # Classify all fake batch with D
        output = netD(fake.detach()).view(-1)
        # Calculate D's loss on the all-fake batch
        errD_fake = criterion(output, label)
        # Calculate the gradients for this batch, accumulated (summed) with previous gradients
        errD_fake.backward()
        D_G_z1 = output.mean().item()
        # Compute error of D as sum over the fake and the real batches
        errD = errD_real + errD_fake
        # Update D
        optimizerD.step()

        ############################
        # (2) Update G network: maximize log(D(G(z)))
        ###########################
        netG.zero_grad()
        label.fill_(real_label)  # fake labels are real for generator cost
        # Since we just updated D, perform another forward pass of all-fake batch through D
        output = netD(fake).view(-1)
        # Calculate G's loss based on this output
        errG = criterion(output, label)
        # Calculate gradients for G
        errG.backward()
        D_G_z2 = output.mean().item()
        # Update G
        optimizerG.step()

        # Output training stats
        if i % 50 == 0:
            print('[%d/%d][%d/%d]\tLoss_D: %.4f\tLoss_G: %.4f\tD(x): %.4f\tD(G(z)): %.4f / %.4f'
                  % (epoch, num_epochs, i, len(dataloader),
                     errD.item(), errG.item(), D_x, D_G_z1, D_G_z2))

        # Save Losses for plotting later
        G_losses.append(errG.item())
        D_losses.append(errD.item())

        # Check how the generator is doing by saving G's output on fixed_noise
        if (iters % 500 == 0) or ((epoch == num_epochs-1) and (i == len(dataloader)-1)):
            with torch.no_grad():
                fake = netG(fixed_noise).detach().cpu()
            img_list.append(vutils.make_grid(fake, padding=2, normalize=True))

        iters += 1

随着GAN研究的逐渐成熟，WGAN、CycleGAN等模型逐渐出现。

参考资料

[1] 理解JS散度(Jensen–Shannon divergence)
[2] GAN：两者分布不重合JS散度为log2的数学证明
[3] Radford A, Metz L, Chintala S. Unsupervised representation learning with deep convolutional generative adversarial networks[J]. arXiv preprint arXiv:1511.06434, 2015.
[4] 生成式对抗网络（Generative Adversarial Networks，GANs）
[5] ConvTranspose2d原理，深度网络如何进行上采样？
[6] DCGAN TUTORIAL

镰刀韭菜

关注

6
点赞
踩
54

收藏

觉得还不错? 一键收藏
打赏
0
评论
【PyTorch实战】生成对抗网络GAN：生成动漫人物头像

首先简要介绍一下与的概念：判别模型在深度学习乃至机器学习领域取得了巨大成功，其本质是将样本的特征向量映射成对应的label；而生成模型由于需要大量的先验知识去对真实世界进行建模，且先验分布的选择直接影响模型的性能，因此此前人们更多关注于判别模型方法。生成式对抗网络（Generative Adversarial Networks，GANs）是蒙特利尔大学的Goodfellow Ian于2014年提出的一种生成模型，在之后引起了业内人士的广泛关注与研究。GANs的主要框架包括两个部分：和两个部分。生成器用来合
复制链接

扫一扫