堆栈自编码器 Stacked AutoEncoder

最新推荐文章于 2024-07-30 22:31:40 发布

浮生了大白

最新推荐文章于 2024-07-30 22:31:40 发布

阅读量9.9k

点赞数 10

分类专栏： Dictionary learning

本文链接：https://blog.csdn.net/qq_38640439/article/details/102624044

版权

Dictionary learning 专栏收录该内容

4 篇文章 1 订阅

订阅专栏

1. 前言

深度学习的威力在于其能够逐层地学习原始数据的多种表达方式。每一层都以前一层的表达特征为基础，抽取出更加抽象，更加适合复杂的特征，然后做一些分类等任务。

堆叠自编码器（Stacked Autoencoder，SAE）实际上就是做这样的事情，如前面的自编码器，稀疏自编码器和降噪自编码器都是单个自编码器，它们通过虚构一个x−>h−>xx−>h−>x的三层网络，能过学习出一种特征变化h=f(wx+b)h=f(wx+b)。实际上，当训练结束后，输出层已经没有什么意义了，我们一般将其去掉，即将自编码器表示为：

2. SAE原理

之前之所以将自编码器模型表示为3层的神经网络，那是因为训练的需要，我们将原始数据作为假想的目标输出，以此构建监督误差来训练整个网络。等训练结束后，输出层就可以去掉了，因为我们只关心的是从xx到hh的变换。

接下来的思路就很自然了，我们已经得到特征表达hh，那么我们可不可以将hh再作为原始信息，训练一个新的自编码器，得到新的特征表达呢？当软可以，而且这就是所谓的堆叠自编码器（Stacked Autoencoder，SAE）。Stacked就是逐层堆叠的意思，这个跟“栈”有点像。当把多个自编码器Stack起来之后，这个系统看起来就像这样：

2.1 第一层AE

这样就把自编码器改成了深度结构了，即《learning multiple levels of representation and abstraction》(Hinton, Bengio, LeCun, 2015)。需要注意的是，整个网络的训练不是一蹴而就的，而是逐层进行的。比如说我们要训练一个n−>m−>kn−>m−>k 结构的网络，实际上我们是先训练网络n−>m−>nn−>m−>n，得到n−>mn−>m的变换，然后再训练m−>k−>mm−>k−>m网络，得到m−>km−>k的变换。最终堆叠成SAE，即为n−>m−>kn−>m−>k的结果，整个过程就像一层层往上面盖房子，这就是大名鼎鼎的 layer-wise unsuperwised pre-training （逐层非监督预训练）。

接下来我们来看一个具体的例子，假设你想要训练一个包含两个隐藏层的堆叠自编码器，用来训练 MNIST 手写数字分类。

首先，你需要用原始输入x(k)x(k)训练第一个稀疏自编码器中，它能够学习得到原始输入的一阶特征表示h(1)(k)h(1)(k)，如下图所示：

2.2 第二层AE

接着，你需要把原始数据输入到上述训练好的稀疏自编码器中，对于每一个输入x(k)x(k)，都可以得到它对应的一阶特征表示h(1)(k)h(1)(k)。然后你再用这些一阶特征作为另一个稀疏自编码器的输入，使用它们来学习二阶特征h(2)(k)h(2)(k)，如下图：

2.3 第三层

同样，再把一阶特征输入到刚训练好的第二层稀疏自编码器中，得到每个h(1)(k)h(1)(k)对应的二阶特征激活值h(2)(k)h(2)(k)。接下来，你可以把这些二阶特征作为softmax分类器的输入，训练得到一个能将二阶特征映射到数字标签的模型。如下图：

2.4 组合

最终，你可以将这三层结合起来构建一个包含两个隐藏层和一个最终softmax分类器层的堆叠自编码网络，这个网络能够如你所愿地对MNIST数据集进行分类。最终模型如下图：

3. 总结

为什么逐层预训练的SAE有不错的效果？一个直观的解释是，预训练好的网络在一定程度上拟合了训练数据的结构，这使得整个网络的初始值是在一个合适的状态，便于有监督阶段加快迭代收敛。当然，有不少研究提出了很好的初始化策略，再加上现在常用的dropout、ReLU，直接去训练一个深层网络已经不是问题。

最后，多说一句，除了AE和SAE这种逐层预训练的方式外，还有另外一条类似的主线，即限制玻尔兹曼机（RBM）与深度信念网络（DBN）。

4 堆叠式降噪自动编码器

对于单隐层的自动编码器，通常利用反向传播算法的诸多变种之一来进行训练（其中最典型的方法是随机梯度下降法），就可以取得非常有效的结果。但是，如果仍将其应用于多隐层的网络中，反向传播的训练方法就会产生一些问题：通过最初的几层后，误差会变得极小，训练也随之变得无效。尽管更多先进的反向传播方法一定程度上缓解了这一问题，但依然无法解决学习速度缓慢的问题，尤其是当训练数据量有限时，该问题更为明显。正如前面所提到的，如果可以通过把每一层当作一个简单的自解码器来进行预训练，然后再进行堆叠，那么训练效率就会得到大大地提高。正如图二所示，先对每个单隐层的降噪自动编码器单元进行无监督预训练，然后再进行堆叠，最后进行整体的反向调优训练，就得到了一个两层隐藏层结构的堆叠式降噪自动编码器

è¿éåå¾çæè¿°