【生成对抗网络系列】五、WGAN-GP

travellerss

已于 2023-09-17 08:58:32 修改

阅读量1.5k

点赞数 2

分类专栏： # 生成对抗网络文章标签：生成对抗网络

于 2022-10-16 16:02:45 首次发布

本文链接：https://blog.csdn.net/qq_30196905/article/details/127348686

版权

生成对抗网络专栏收录该内容

7 篇文章

订阅专栏

本文介绍了WGAN-GP模型，一种改进自WGAN的生成对抗网络，通过引入梯度惩罚策略解决训练不稳定的问题，提高了生成图像的质量。文章详细解释了WGAN-GP的工作原理、方法设计，并提供了Pytorch实现的代码。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考资料

论文：

Improved Training of Wasserstein GANs

博客：

WGAN-GP方法介绍

第1章背景介绍

训练不稳定是GAN常见的一个问题。虽然WGAN在稳定训练方面有了比较好的进步，但是有时也只能生成较差的样本，并且有时候也比较难收敛。原因在于：WGAN采用了权重修剪（weight clipping）策略来强行满足critic上的Lipschitz约束，这将导致训练过程产生一些不希望的行为。

本文提出了另一种截断修剪的策略——gradient penalty，即惩罚critic相对于其输入（由随机噪声z生成的图片，即fake image）的梯度的norm。就是这么一个简单的改进，能使WGAN的训练变得更加稳定，并且取得更高质量的生成效果。

注意：GAN之前的D网络都叫discriminator，但是由于这里不是做分类任务，WGAN作者觉得叫discriminator不太合适，于是将其叫为 critic。

第2章方法设计

其实，WGAN-GP方法的作者也是普通人，一开始想到的也是很普通的方法，比如把weight clipping这么粗暴的方法改为L2 norm clip，做权重的归一化等。然而这些方法的效果跟带weight clipping的WGAN效果没啥区别。作者也尝试了batch normalization的方法，但是发现当critic太深时，WGAN难以收敛。于是，才有了WGAN-GP方法。WGAN-GP的目标函数如下所示：

在这里插入图片描述

可以看到，WGAN-GP相对于WGAN的改进很小，除了增加了一个正则项，其他部分都和WGAN一样。这个正则项就是WGAN-GP中GP（gradient penalty），即梯度约束。这个约束的意思是：critic相对于原始输入的梯度的L2范数要约束在1附近（双边约束）。为什么这个约束是合理的，这里作者给了一个命题，并且在文章补充材料中给出了证明，这个证明大家有兴趣可以自己去看，这里只想简单介绍一下这个命题。这个命题说的是在最优的优化路径上（把生成分布推向真实分布的“道路”上），critic函数对其输入的梯度值恒定为1。有了这个知识后，我们可以像搞传统机器学习一样，将这个知识加入到目标函数中，以学习到更好的模型。

这里需要说明一下，WGAN-GP作者加的这个约束能保证critic也是一个Lipschiz连续函数。因为critic对任意输入x的梯度都是一个含参数w的表达式，而这个梯度的L2 norm大小约束在1附近，那w也不超过某个常数。因而从保证Lipschiz连续的条件上，GP的作用跟weight clip是一样的。

WGAN-GP具体算法步骤如下：

在这里插入图片描述

可以看出跟WGAN不同的主要有几处：

1）用 gradient penalty 取代weight clipping；
2）真实图像与生成图像 随机加权求和 ；
3）优化器用Adam 取代RMSProp；
4）critic不用 BN ；

这里需要注意的是，这个GP的引入，跟一般GAN、WGAN中通常需要加的Batch Normalization会起冲突。因为这个GP要求critic的一个输入对应一个输出，但是BN会将一个批次中的样本进行归一化，BN是一批输入对应一批输出，因而用BN后无法正确求出critic对于每个输入样本的梯度。

第3章实验介绍

作者做了很多实验，主要就是为了说明WGAN中GP用于保证Lipschiz连续的方式要比weight clip好，因而能稳定训练，并生成质量比较好的图像。具体实验结论如下：

（1）WGAN中的weight clip策略，会导致学到的绝大部分weight趋近于两个极端（-c和c），但是WGAN-GP学到的梯度是均匀分布在某个区间的。

当critic选择的是比较深的网络时，WGAN中的c值不管怎么选取，都容易出现梯度爆炸或者梯度消失问题。

在这里插入图片描述

（2）采用weight clip的策略训练出的critic无法捕获数据分布的高阶矩信息。比如图2中第二行第一列的图中，WGAN-GP生成数据的critic值基本都分布在8个高斯附近，这和输入的样本信息（8个高斯）是一致的。但是第一行第一列中，WGAN-GP生成数据的critic值就没有如此优良特性。

在这里插入图片描述

（3）WGAN-GP比WGAN效果要好。作者在cifar10上做了对比实验，结果如图3所示。在同样实验设置下，WGAN-GP结果要明显比WGAN好，跟DCGAN差不多，但是训练要比DCGAN稳定。

在这里插入图片描述

（4）其他GAN当G或者D改变，或者加不同激活函数时，效果差别很大，有的会训练不好，有的会出现mode collapse。但是，WGAN-GP对于各种不同的结构效果都很好。

在这里插入图片描述

（5）WGAN-GP的loss曲线是有意义的。WGAN文章中介绍到WGAN的loss是和其样本生成质量相关的，即loss越小，生成样本质量越好。WGAN-GP也保持了这个特性。不仅如此，WGAN-GP的loss还能反映出过拟合的情况。

在这里插入图片描述

第4章总结

本文提出了一种梯度惩罚策略，来取代WGAN中的weight clipping策略，从而使WGAN的训练变得更加稳定，生成的图像质量更好。个人认为WGAN-GP最好的性质在于不用太关注网络结构的设计，无论采用什么样的结构都能训练得比较好。

第5章 Pytorch实现WGAN-GP

参考博客：

WGAN-gp模型生成Fashon-MNST模拟数据

WGAN-GP——WGAN的升级版，解决了WGAN存在的梯度消失和梯度爆炸问题+pytorch代码实现及代码详解

import argparse
import os
import numpy as np
from tqdm.autonotebook import tqdm

import torchvision.transforms as transforms
from torchvision.utils import save_image

from torch.utils.data import DataLoader
from torchvision import datasets
from torch.autograd import Variable

import torch.nn as nn
import torch.nn.functional as F
import torch.autograd as autograd
import torch

os.makedirs("images", exist_ok=True)

parser = argparse.ArgumentParser()
parser.add_argument("--n_epochs", type=int, default=200, help="number of epochs of training")
parser.add_argument("--batch_size", type=int, default=64, help="size of the batches")
parser.add_argument("--lr", type=float, default=0.0002, help="adam: learning rate")
parser.add_argument("--b1", type=float, default=0.5, help="adam: decay of first order momentum of gradient")
parser.add_argument("--b2", type=float, default=0.999, help="adam: decay of first order momentum of gradient")
parser.add_argument("--n_cpu", type=int, default=8, help="number of cpu threads to use during batch generation")
parser.add_argument("--latent_dim", type=int, default=100, help="dimensionality of the latent space")
parser.add_argument("--img_size", type=int, default=28, help="size of each image dimension")
parser.add_argument("--channels", type=int, default=1, help="number of image channels")
parser.add_argument("--n_critic", type=int, default=5, help="number of training steps for discriminator per iter")
parser.add_argument("--sample_interval", type=int, default=400, help="interval betwen image samples")
opt = parser.parse_args()
print(opt)

img_shape = (opt.channels, opt.img_size, opt.img_size)

cuda = True if torch.cuda.is_available() else False


class Generator(nn.Module):
    def __init__(self):
        super(Generator, self).__init__()

        def block(in_feat, out_feat, normalize=True):
            layers = [nn.Linear(in_feat, out_feat)]
            if normalize:
                layers.append(nn.BatchNorm1d(out_feat, 0.8))
            layers.append(nn.LeakyReLU(0.2, inplace=True))
            return layers

        self.model = nn.Sequential(
            *block(opt.latent_dim, 128, normalize=False),
            *block(128, 256),
            *block(256, 512),
            *block(512, 1024),
            nn.Linear(1024, int(np.prod(img_shape))),
            nn.Tanh()
        )

    def forward(self, z):
        img = self.model(z)
        img = img.view(img.shape[0], *img_shape)
        return img


class Discriminator(nn.Module):
    def __init__(self):
        super(Discriminator, self).__init__()

        # critic不用BN
        self.model = nn.Sequential(
            nn.Linear(int(np.prod(img_shape)), 512),
            nn.LeakyReLU(0.2, inplace=True),
            nn.Linear(512, 256),
            nn.LeakyReLU(0.2, inplace=True),
            nn.Linear(256, 1),
        )

    def forward(self, img):
        img_flat = img.view(img.shape[0], -1)
        validity = self.model(img_flat)
        return validity


# Loss weight for gradient penalty
# 正则化系数
lambda_gp = 10

# Initialize generator and discriminator
generator = Generator()
discriminator = Discriminator()

if cuda:
    generator.cuda()
    discriminator.cuda()

# Configure data loader
os.makedirs("../../data/mnist", exist_ok=True)
dataloader = torch.utils.data.DataLoader(
    datasets.MNIST(
        "../../data/mnist",
        train=True,
        download=True,
        transform=transforms.Compose(
            [transforms.Resize(opt.img_size), transforms.ToTensor(), transforms.Normalize([0.5], [0.5])]
        ),
    ),
    batch_size=opt.batch_size,
    shuffle=True,
)

# Optimizers
optimizer_G = torch.optim.Adam(generator.parameters(), lr=opt.lr, betas=(opt.b1, opt.b2))
optimizer_D = torch.optim.Adam(discriminator.parameters(), lr=opt.lr, betas=(opt.b1, opt.b2))

Tensor = torch.cuda.FloatTensor if cuda else torch.FloatTensor


# 1.3 定义函数compute_gradient_penalty()完成梯度惩罚项
# 惩罚项的样本X_inter由一部分Pg分布和一部分Pr分布组成，同时对D(X_inter)求梯度，并计算梯度与1的平方差，最终得到gradient_penalties
def compute_gradient_penalty(D, real_samples, fake_samples):
    """Calculates the gradient penalty loss for WGAN GP"""

    # Random weight term for interpolation between real and fake samples
    # 获取一个随机数，作为真假样本的采样比例
    alpha = Tensor(np.random.random((real_samples.size(0), 1, 1, 1)))

    # Get random interpolation between real and fake samples
    # 真实图片和生成图片随机加权求和
    interpolates = (alpha * real_samples + ((1 - alpha) * fake_samples)).requires_grad_(True)

    # 丢给判别器进行识别(加权后的图片)
    d_interpolates = D(interpolates)

    # 计算梯度输出的掩码，在本例中需要对所有梯度进行计算，故需要按照样本个数生成全为1的张量。
    fake = Variable(Tensor(real_samples.shape[0], 1).fill_(1.0), requires_grad=False)

    # Get gradient w.r.t. interpolates
    gradients = autograd.grad(
        outputs=d_interpolates,     # 输出值outputs，传入计算过的张量结果
        inputs=interpolates,        # 待求梯度的输入值inputs，传入可导的张量，即requires_grad=True
        grad_outputs=fake,          # 传出梯度的掩码grad_outputs，使用1和0组成的掩码，在计算梯度之后，会将求导结果与该掩码进行相乘得到最终结果。
        create_graph=True,
        retain_graph=True,
        only_inputs=True,
    )[0]
    gradients = gradients.view(gradients.size(0), -1)
    gradient_penalty = ((gradients.norm(2, dim=1) - 1) ** 2).mean()
    return gradient_penalty


# ----------
#  Training
# ----------

batches_done = 0
for epoch in range(opt.n_epochs):
    loop = tqdm(dataloader, colour='red', unit='img')
    for i, (imgs, _) in enumerate(loop):

        # Configure input
        real_imgs = Variable(imgs.type(Tensor))

        # ---------------------
        #  Train Discriminator
        # ---------------------

        optimizer_D.zero_grad()

        # Sample noise as generator input
        z = Variable(Tensor(np.random.normal(0, 1, (imgs.shape[0], opt.latent_dim))))

        # Generate a batch of images
        fake_imgs = generator(z)

        # Real images
        real_validity = discriminator(real_imgs)
        # Fake images
        fake_validity = discriminator(fake_imgs)
        # Gradient penalty
        gradient_penalty = compute_gradient_penalty(discriminator, real_imgs.data, fake_imgs.data)
        # Adversarial loss
        d_loss = -torch.mean(real_validity) + torch.mean(fake_validity) + lambda_gp * gradient_penalty

        d_loss.backward()
        optimizer_D.step()

        optimizer_G.zero_grad()

        # Train the generator every n_critic steps
        if i % opt.n_critic == 0:

            # -----------------
            #  Train Generator
            # -----------------

            # Generate a batch of images
            fake_imgs = generator(z)
            # Loss measures generator's ability to fool the discriminator
            # Train on fake images
            fake_validity = discriminator(fake_imgs)
            g_loss = -torch.mean(fake_validity)

            g_loss.backward()
            optimizer_G.step()

            # print(
            #     "[Epoch %d/%d] [Batch %d/%d] [D loss: %f] [G loss: %f]"
            #     % (epoch, opt.n_epochs, i, len(dataloader), d_loss.item(), g_loss.item())
            # )
            # 进度条参数
            loop.set_description(f"Epoch [{epoch}/{opt.n_epochs}]")
            loop.set_postfix(D_loss=d_loss.item(), G_loss=g_loss.item())

            if batches_done % opt.sample_interval == 0:
                save_image(fake_imgs.data[:25], "images/%d.png" % batches_done, nrow=5, normalize=True)

            batches_done += opt.n_critic