GAN生成对抗网络合集(四):wGAN及wGAN-gp(附代码)

1 原始GAN存在问题

       实际训练中,GAN存在着训练困难、生成器和判别器的loss无法指示训练进程、生成样本缺乏多样性等问题。这与GAN的机制有关。
       GAN最终达到对抗的纳什均衡只是一个理想状态,而现实情况中得到的结果都是中间状态(伪平衡)。大部分的情况是,随着训练的次数越多判别器D的效果越好,会导致一直可以将生成器G的输出与真实样本区分开。
       这是因为生成器G是从低维空间向高维空间(复杂的样本空间)映射,其生成的样本分布空间Pg难以充满整个真实样本的分布空间Pr。即两个分布完全没有重叠的部分,或者它们重叠的部分可以忽略,这样就使得判别器D总会将它们分开。
       为什么可以忽略呢?放在二维空间中会更好理解一些。在二维平面中随机取两条曲线,两条曲线上的点可以代表二者的分布,要想判别器无法分辨它们,需要两个分布融合在一起,即它们之间需要存在重叠线段,然而这样的概率为0;另一方面,即使它们很可能会存在交叉点,但是相比于两条曲线而言,交叉点比曲线低一个维度,长度(测度)为0代表它只是一个点,代表不了分布情况,所以可以忽略。
       这样会带来什么后果呢?假设先将D训练得足够好,然后固定D,再来训练G,通过实验会发现G的loss无论怎么更新也无法收敛到最小值,而是无限接近log2。这个log2可以理解为Pg与Pr两个样本分布的距离。loss值恒定即表明G的梯度为0,无法再通过训练来优化自己。
       所以在原始GAN的训练中,判别器训练得太好,会使生成器梯度消失,生成器loss降不下去;判别器训练得不好,会使生成器梯度不准,四处乱跑。只有判别器训练到中间状态最佳,但是这个尺度很难把握,没有一个收敛判断的依据。甚至在同一轮训练的前后不同阶段,这个状态出现的时段都不一样,是个完全不可控的情况

2 WGan原理

使用W-GAN网络进行图像生成时,网络将整个图像视为一种属性,其目的就是学习图像整个属性的数据分布,因而将生成图像分布Pg拟合为真实图像分布Pr是合理可行的。若期望的生成分布Pg不是当前的真实图像分布Pr,那么网络具体的收敛方向将会不可控,会出现训练失败的情况。

       WGan(Wasserstein Gan),Wasserstein是指Wasserstein距离,又叫Earth-Mover(EM)推土机距离。
       WGan的思想是将生成的模拟样本分布Pg与原始样本分布Pr组合起来,当成所有可能的联合分布的集合。然后可以从中采样得到真实样本与模拟样本,并能够计算二者的距离,还可以算出距离的期望值。这样就可以通过训练,让网络在所有可能的联合分布中对这个期望值取下界的方向优化,也就是将两个分布的集合拉到一起。这样原来的判别式就不再是判别真伪的功能了,而是计算两个分布集合距离的功能。所以将其称为评论器更加合适,同样,最后一层的sigmoid也需要去掉了。

核心意思就是
原始GAN的D的loss都是真实样本和1作交叉熵,模拟样本和0作交叉熵;G的loss是模拟样本和1作交叉熵。
WGan的loss就是将真实样本和模拟样本形成联合分布,采样后给二者作差,D的目的是二者越大越好,G的目的是二者越小越好

real_X   为真实数据
random_Y 为G生成的模拟数据
L = tf.reduce_mean(D(real_X)) - tf.reduce_mean(D(random_Y))
D_loss = tf.reduce_mean(D(random_Y)) - tf.reduce_mean(D(real_X)) 取反
G_loss = -tf.reduce_mean(D(random_Y))                            第一项与G无关

在这里插入图片描述
       但WGan也存在问题。对于前面说的梯度限制,WGAN直接使用Weight clipping方式太过生硬。每当更新完一次判别器的参数之后,就检查判别器的所有参数的绝对值有没有超过一个阈值,比如0.01,如果有的话就把这些参数截断(clipping)回[-0.01,0.01]的范围内。
       Lipschitz限制本意是当输入的样本稍微变化后,判别器给出的分数不能发生太剧烈的变化。通过在训练过程中保证判别器的所有参数有界,就保证了判别器不能对两个略微不同的样本给出天差地别的分数值,从而间接实现了Lipschitz限制。
       然而,这种渴望与判别器本身的目的相矛盾。在判别器中,是希望loss尽可能地大,才能拉大真假样本的区别,这种情况会导致在判别器中通过loss算出的梯度会沿着loss越来越大的方向变化,然而经过Weight clipping后每一个网络参数又被独立地限制了取值范围(如[-0.01,0.01]),这种结果只能是所有的参数走向极端,要么取最大值(如0.01)要么取最小值(如-0.01),判别器没能充分利用自身的模型能力,经过它回传给生成器的梯度也会跟着变差。
       如果判别器是一个多层网络,Weight clipping还会导致梯度消失或者梯度爆炸。原因是,如果我们把Clipping threshold设得稍微小了一点,每经过一层网络,梯度就变小一点,多层之后就会指数衰减;反之,如果设得稍微大了一点,每经过一层网络,梯度就会变大一点,多层之后就会指数爆炸。然而在实际应用中很难做到设置适宜,让生成器获得恰到好处的回传梯度。

在这里插入图片描述

3 WGan-gp原理

在这里插入图片描述
       在实际训练过程中,可以通过Wasserstein距离来度量模型收敛程度。

在这里插入图片描述

4 代码

在这里插入图片描述

# -*- coding: utf-8 -*-

##################################################################
#  1.引入头文件并加载mnist数据
##################################################################
import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data
import os
import numpy as np
from scipy import misc,ndimage
import tensorflow.contrib.slim as slim
import time
from timer 
  • 21
    点赞
  • 157
    收藏
    觉得还不错? 一键收藏
  • 10
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值