无监督的逐层训练,其思想和自编码器非常相似,后者的目标是让神经网络的输出能和原始输入一致,相当于学习一个恒等式y=x。自编码器通常希望使用少量稀疏的高阶特征来重构输入,所以可以加入几种限制。
(1)如果限制中间隐含层节点的数量,比如让中间隐含层节点的数量小于输入/输出节点的数量,就相当于一个降维的过程。此时已经不可能出现复制所有节点的情况,因为中间节点数小于输入节点数,那只能学习数据中最重要的特征复原,将可能不太相关的内容去除。此时,如果再给中间隐含层的权重加一个L1的正则,则可以根据惩罚系数控制隐含节点的稀疏程度,惩罚系数越大,学到的特征组合越稀疏,实际使用(非零权重)的特征数量越少。
(2)如果给数据加入噪声,那么就是Denoising AutoEncoder(去噪自编码器),我们将从噪声中学习出数据的特征。同时,我们也不可能完全复制节点,完全复制并不能去除我们添加的噪声,无法完全复原数据。所以唯有学习数据频繁出现的模式和结构,将无规律的噪声略去,才可以复原数据。
去噪自编码器中最常使用的噪声是加性高斯噪声,当然也可以使用Making Noidse,即随机遮挡的噪声。如果自编码器的隐含层只有一层,那么其原理类似于主成分分析PCA。
Hinton提出了基于深度信念网络(Deep Belief Network,DBN,由多层RBM堆叠而成),每个隐含层都是限制性玻尔兹曼机RBM,一种具有特殊连接分布的神经网络。DBN训练时,需要先对每两层间进行无监督的预训练,这个过程其实就相当于一个多层的自编码器,可以将整个网络的权重初始化到一个理想的分布。最后通过反向传播算法调整模型权重,这个步骤会使用经过标注的信息来做监督性的分类训练。简单地说,Hinton的思路就是先用自编码器的方法进行无监督的预训练,提取特征并初始化权重,然后使用标注信息进行监督式的训练。当然自编码器的作用不仅局限于给监督训练做预训练,直接使用自编码器进行特征提取和分析也是可以的。
下面我们就开始实现最具代表性的去躁自编码器。去躁自编码器的使用范围最广也最通用。而其他几种自编码器,读者可以对代码加以修改自行实现,其中无噪声的自编码器只需要去掉噪声,并保证隐含层结点小于输入层结点;Masking Noise的自编码器只需要将高斯噪声改为随机遮挡噪声;Variational Autoncoder(AVE)则相对复杂,VAE对中间节点的分布有强假设,拥有额外的损失项,且会使用特殊的SGVB(Stochastic Gradient Variational Bayes)算法进行训练。目前VAE还在生成模型中发挥了很大 的作用。
先导入常用库NumPy,还有Scikit-learn中的preprocessing模块,这是一个对数据进行预处理的常用模块。
import numpy as np
import sklearn.preprocessing as prep
import tensorflow as tf
import tensorflow.examples.tutorials.mnist.input_data as input_data
自编码器中会使用一种参数初始化方法xavier initialization,它的特点是会根据某一层网络的输入,输出节点数量自动调整最合适的分布。如果深度学习模型的权重初始化得太小,那信号将在每层间传递时逐渐缩小而难以产生作用,但如果权重初始化得太大,那信号将在每层间传递时逐渐放大并导致发散和失效。而Xaiver初始化器做的事情就是让权重被初始化得不大不小,正好合适。 即让权重满足0均值,同时方差为2/(n(in)+n(out)),分布可以用均匀分布或者高斯分布。下面fan_in是输入节点的数量,fan_out是输出节点的数量。
def xavier_init(fan_in, fan_out, constant = 1):
low = -constant * np.sqrt(6.0 / (fan_in + fan_out))
high = constant * np.sqrt(6.0 / (fan_in + fan_out))
return tf.random_uniform((fan_in, fan_out), minval = low, maxval = high, dtype=tf.float3
下面是一个去噪自编码的class,包含一个构建函数_init_():n_input(输入变量数),n_hidden(隐含层节点数),transfer_function(隐含层激活函数,默认为softplus)optimizer(优化器,默认为Adam),scale(高斯噪声系数,默认为0.1)。其中,class内的scale参数做成了一个占位符参数初始化则使用_initialize_weights函数。
class AdditiveGaussianNoiseAutoencoder(object):
def __init__(self, n_input, n_hidden, transfer_function=tf.nn.softplus, optimizer=tf.train.AdadeltaOptimizer(), scale=0.1):
self.n_input = n_input
self.n_hidden = n_hidden
self.transfer = transfer_function
self.scale = tf.placeholder(tf.float32)
self.training_scale = scale
network_weights = self._initialize_weights()
self.weights = network_weights
接下来开始定义网络结构,为x创