如何用 TensorFlow 实现生成式对抗网络(GAN)

我们来研究一下生成式对抗网络 GAN,并且用 TensorFlow 代码实现。


自从 Ian Goodfellow 在 14 年发表了 论文 Generative Adversarial Nets 以来,生成式对抗网络 GAN 广受关注,加上学界大牛 Yann Lecun 在 Quora 答题时曾说,他最激动的深度学习进展是生成式对抗网络,使得 GAN 成为近年来在机器学习领域的新宠,可以说,研究机器学习的人,不懂 GAN,简直都不好意思出门。


下面我们来简单介绍一下生成式对抗网络,主要介绍三篇论文:1)Generative Adversarial Networks;2)Conditional Generative Adversarial Nets;3)Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks。


首先来看下第一篇论文,了解一下 GAN 的过程和原理:


GAN 启发自博弈论中的二人零和博弈(two-player game),GAN 模型中的两位博弈方分别由生成式模型(generative model)和判别式模型(discriminative model)充当。生成模型 G 捕捉样本数据的分布,用服从某一分布(均匀分布,高斯分布等)的噪声 z 生成一个类似真实训练数据的样本,追求效果是越像真实样本越好;判别模型 D 是一个二分类器,估计一个样本来自于训练数据(而非生成数据)的概率,如果样本来自于真实的训练数据,D 输出大概率,否则,D 输出小概率。可以做如下类比:生成网络 G 好比假币制造团伙,专门制造假币,判别网络 D 好比警察,专门检测使用的货币是真币还是假币,G 的目标是想方设法生成和真币一样的货币,使得 D 判别不出来,D 的目标是想方设法检测出

来 G 生成的假币。如图所示:



在训练的过程中固定一方,更新另一方的网络权重,交替迭代,在这个过程中,双方都极力优化自己的网络,从而形成竞争对抗,直到双方达到一个动态的平衡(纳什均衡),此时生成模型 G 恢复了训练数据的分布(造出了和真实数据一模一样的样本),判别模型再也判别不出来结果,准确率为 50%,约等于乱猜。


上述过程可以表述为如下公式:


当固定生成网络 G 的时候,对于判别网络 D 的优化,可以这样理解:输入来自于真实数据,D 优化网络结构使自己输出 1,输入来自于生成数据,D 优化网络结构使自己输出 0;当固定判别网络 D 的时候,G 优化自己的网络使自己输出尽可能和真实数据一样的样本,并且使得生成的样本经过 D 的判别之后,D 输出高概率。

第一篇文章,在 MNIST 手写数据集上生成的结果如下图:

 


最右边的一列是真实样本的图像,前面五列是生成网络生成的样本图像,可以看到生成的样本还是很像真实样本的,只是和真实样本属于不同的类,类别是随机的。

 

第二篇文章想法很简单,就是给 GAN 加上条件,让生成的样本符合我们的预期,这个条件可以是类别标签(例如 MNIST 手写数据集的类别标签),也可以是其他的多模态信息(例如对图像的描述语言)等。用公式表示就是:


式子中的 y 是所加的条件,结构图如下:


生成结果如下图:


图中所加的条件 y 是类别标签。

 

第三篇文章,简称(DCGAN),在实际中是代码使用率最高的一篇文章,本系列文的代码也是这篇文章代码的初级版本,它优化了网络结构,加入了 conv,batch_norm 等层,使得网络更容易训练,网络结构如下:

可以有加条件和不加条件两种网络,论文还做了好多试验,展示了这个网络在各种数据集上的结果。有兴趣同学可以去看论文,此文我们只从代码的角度理解去理解它。

 

参考文献:

1. http://blog.csdn.net/solomon1558/article/details/52549409


前面我们了解了 GAN 的原理,下面我们就来用 TensorFlow 搭建 GAN(严格说来是 DCGAN,如无特别说明,本系列文章所说的 GAN 均指 DCGAN),如前面所说,GAN 分为有约束条件的 GAN,和不加约束条件的GAN,我们先来搭建一个简单的 MNIST 数据集上加约束条件的 GAN。

首先下载数据:在  /home/your_name/TensorFlow/DCGAN/ 下建立文件夹 data/mnist,从 http://yann.lecun.com/exdb/mnist/ 网站上下载 mnist 数据集 train-images-idx3-ubyte.gztrain-labels-idx1-ubyte.gzt10k-images-idx3-ubyte.gzt10k-labels-idx1-ubyte.gz 到 mnist 文件夹下得到四个 .gz 文件。

数据下载好之后,在 /home/your_name/TensorFlow/DCGAN/ 下新建文件 read_data.py 读取数据,输入如下代码:



import osimport numpy as npdef read_data():    
# 数据目录    data_dir = '/home/your_name/TensorFlow/DCGAN/data/mnist'  
  # 打开训练数据        fd = open(os.path.join(data_dir,'train-images-idx3-ubyte'))    
   # 转化成 numpy 数组    loaded = np.fromfile(file=fd,dtype=np.uint8)    
   # 根据 mnist 官网描述的数据格式,图像像素从 16 字节开始    trX = loaded[16:].reshape((60000,28,28,1)).astype(np.float)  
 
   # 训练 label
   fd = open(os.path.join(data_dir,'train-labels-idx1-ubyte'))    loaded = np.fromfile(file=fd,dtype=np.uint8)    trY = loaded[8:].reshape((60000)).astype(np.float)    

   # 测试数据
   fd = open(os.path.join(data_dir,'t10k-images-idx3-ubyte'))    loaded = np.fromfile(file=fd,dtype=np.uint8)    teX = loaded[16:].reshape((10000,28,28,1)).astype(np.float)    

   # 测试 label
   fd = open(os.path.join(data_dir,'t10k-labels-idx1-ubyte'))    loaded = np.fromfile(file=fd,dtype=np.uint8)    teY = loaded[8:].reshape((10000)).astype(np.float)    trY = np.asarray(trY)    teY = np.asarray(teY)        # 由于生成网络由服从某一分布的噪声生成图片,不需要测试集,    # 所以把训练和测试两部分数据合并    X = np.concatenate((trX, teX), axis=0)    y = np.concatenate((trY, teY), axis=0)        # 打乱排序    seed = 547    np.random.seed(seed)    np.random.shuffle(X)    np.random.seed(seed)    np.random.shuffle(y)        # 这里,y_vec 表示对网络所加的约束条件,这个条件是类别标签,    # 可以看到,y_vec 实际就是对 y 的独热编码,关于什么是独热编码,    # 请参考 http://www.cnblogs.com/Charles-Wan/p/6207039.html    y_vec = np.zeros((len(y), 10), dtype=np.float)    
   for i, label in enumerate(y):
        y_vec[i,y[i]]
= 1.0        return X/255., y_vec

这里顺便说明一下,由于 MNIST 数据总体占得内存不大(可以看下载的文件,最大的一个 45M 左右,)所以这样读取数据是允许的,一般情况下,数据特别庞大的时候,建议把数据转化成 tfrecords,用 TensorFlow 标准的数据读取格式,这样能带来比较高的效率。

 

然后,定义一些基本的操作层,例如卷积,池化,全连接等层,在 /home/your_name/TensorFlow/DCGAN/ 新建文件 ops.py,输入如下代码:


import tensorflow as tf
from tensorflow.contrib.layers.python.layers import batch_norm as batch_norm

# 常数偏置
def bias(name, shape, bias_start = 0.0, trainable = True):        dtype = tf.float32    var = tf.get_variable(name, shape, tf.float32, trainable = trainable,                          initializer = tf.constant_initializer(                                                  bias_start, dtype = dtype))    
return
var

# 随机权重
def weight(name, shape, stddev = 0.02, trainable = True):        dtype = tf.float32    var = tf.get_variable(name, shape, tf.float32, trainable = trainable,                          initializer = tf.random_normal_initializer(                                              stddev = stddev, dtype = dtype))    

return var

# 全连接层
def fully_connected(value, output_shape, name = 'fully_connected', with_w = False):        shape = value.get_shape().as_list()        with tf.variable_scope(name):        weights = weight('weights', [shape[1], output_shape], 0.02)        biases = bias('biases', [output_shape], 0.0)            if with_w:        
return tf.matmul(value, weights) + biases, weights, biases
    
else:
       
return tf.matmul(value, weights) + biases

# Leaky-ReLu 层
def lrelu(x, leak=0.2, name = 'lrelu'):        with tf.variable_scope(name):
       
return tf.maximum(x, leak*x, name = name)        # ReLu 层def relu(value, name = 'relu'):    with tf.variable_scope(name):
       
return tf.nn.relu(value)    # 解卷积层
def deconv2d(value, output_shape, k_h = 5, k_w = 5, strides =[1, 2, 2, 1],             name = 'deconv2d', with_w = False):        with tf.variable_scope(name):        weights = weight('weights',                         [k_h, k_w, output_shape[-1], value.get_shape()[-1]])        deconv = tf.nn.conv2d_transpose(value, weights,                                        output_shape, strides = strides)        biases = bias('biases', [output_shape[-1]])        deconv = tf.reshape(tf.nn.bias_add(deconv, biases), deconv.get_shape())
        
if with_w:
            
return deconv, weights, biases
        
else:
           
return deconv            # 卷积层
           
def conv2d(value, output_dim, k_h = 5, k_w = 5,            strides =[1, 2, 2, 1], name = 'conv2d'):        with tf.variable_scope(name):        weights = weight('weights',                         [k_h, k_w, value.get_shape()[-1], output_dim])        conv = tf.nn.conv2d(value, weights, strides = strides, padding = 'SAME')        biases = bias('biases', [output_dim])        conv = tf.reshape(tf.nn.bias_add(conv, biases), conv.get_shape())                return conv

# 把约束条件串联到 feature map
def conv_cond_concat(value, cond, name = 'concat'):        # 把张量的维度形状转化成 Python 的 list    value_shapes = value.get_shape().as_list()    cond_shapes = cond.get_shape().as_list()        # 在第三个维度上(feature map 维度上)把条件和输入串联起来,    # 条件会被预先设为四维张量的形式,假设输入为 [64, 32, 32, 32] 维的张量,    # 条件为 [64, 32, 32, 10] 维的张量,那么输出就是一个 [64, 32, 32, 42] 维张量
   with tf.variable_scope(name):                return tf.concat(3, [value,                             cond * tf.ones(value_shapes[0:3] + cond_shapes[3:])])  # BN 层,这里我们直接用官方的 BN 层。
       
def batch_norm_layer(value, is_train = True, name = 'batch_norm'):        with tf.variable_scope(name) as scope:
       
if is_train:                    return batch_norm(value, decay = 0.9, epsilon = 1e-5, scale = True,                              is_training = is_train,                              updates_collections = None, scope = scope)
        
else:
           
return batch_norm(value, decay = 0.9, epsilon = 1e-5, scale = True,                              is_training = is_train, reuse = True,                              updates_collections = None, scope = scope)

batch_norm 里的 decay 指的是滑动平均的 decay,epsilon 作用是加到分母 variance 上避免分母为零,scale 是个布尔变量,如果为真值 True, 结果要乘以 gamma,否则 gamma 不使用,is_train 也是布尔变量,为真值代表训练过程,否则代表测试过程(在 BN 层中,训练过程和测试过程是不同的,具体请参考论文:https://arxiv.org/abs/1502.03167)。关于 batch_norm 的其他的参数,请看参考文献2。

  

参考文献:

1. https://github.com/carpedm20/DCGAN-tensorflow

2. https://github.com/tensorflow/tensorflow/blob/b826b79718e3e93148c3545e7aa3f90891744cc0/tensorflow/contrib/layers/python/layers/layers.py#L100 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值