堆栈自编码器 Stacked AutoEncoder

1. 前言

深度学习的威力在于其能够逐层地学习原始数据的多种表达方式。每一层都以前一层的表达特征为基础,抽取出更加抽象,更加适合复杂的特征,然后做一些分类等任务

堆叠自编码器(Stacked Autoencoder,SAE)实际上就是做这样的事情,如前面的自编码器,稀疏自编码器和降噪自编码器都是单个自编码器,它们通过虚构一个x−>h−>xx−>h−>x的三层网络,能过学习出一种特征变化h=f(wx+b)h=f(wx+b)。实际上,当训练结束后,输出层已经没有什么意义了,我们一般将其去掉,即将自编码器表示为:

 

 

2. SAE原理

之前之所以将自编码器模型表示为3层的神经网络,那是因为训练的需要,我们将原始数据作为假想的目标输出,以此构建监督误差来训练整个网络。等训练结束后,输出层就可以去掉了,因为我们只关心的是从xx到hh的变换。

接下来的思路就很自然了,我们已经得到特征表达hh,那么我们可不可以将hh再作为原始信息,训练一个新的自编码器,得到新的特征表达呢?当软可以,而且这就是所谓的堆叠自编码器(Stacked Autoencoder,SAE)。Stacked就是逐层堆叠的意思,这个跟“栈”有点像。当把多个自编码器Stack起来之后,这个系统看起来就像这样:

 

2.1 第一层AE

这样就把自编码器改成了深度结构了,即《learning multiple levels of representation and abstraction》(Hinton, Bengio, LeCun, 2015)。需要注意的是,整个网络的训练不是一蹴而就的,而是逐层进行的。比如说我们要训练一个n−>m−>kn−>m−>k 结构的网络,实际上我们是先训练网络n−>m−>nn−>m−>n,得到n−>mn−>m的变换,然后再训练m−>k−>mm−>k−>m网络,得到m−>km−>k的变换。最终堆叠成SAE,即为n−>m−>kn−>m−>k的结果,整个过程就像一层层往上面盖房子,这就是大名鼎鼎的 layer-wise unsuperwised pre-training (逐层非监督预训练)。

接下来我们来看一个具体的例子,假设你想要训练一个包含两个隐藏层的堆叠自编码器,用来训练 MNIST 手写数字分类。

首先,你需要用原始输入x(k)x(k)训练第一个稀疏自编码器中,它能够学习得到原始输入的一阶特征表示h(1)(k)h(1)(k),如下图所示:

 

2.2 第二层AE

接着,你需要把原始数据输入到上述训练好的稀疏自编码器中,对于每一个输入x(k)x(k),都可以得到它对应的一阶特征表示h(1)(k)h(1)(k)。然后你再用这些一阶特征作为另一个稀疏自编码器的输入,使用它们来学习二阶特征h(2)(k)h(2)(k),如下图:

 

2.3 第三层

同样,再把一阶特征输入到刚训练好的第二层稀疏自编码器中,得到每个h(1)(k)h(1)(k)对应的二阶特征激活值h(2)(k)h(2)(k)。接下来,你可以把这些二阶特征作为softmax分类器的输入,训练得到一个能将二阶特征映射到数字标签的模型。如下图:

 

2.4 组合

最终,你可以将这三层结合起来构建一个包含两个隐藏层和一个最终softmax分类器层的堆叠自编码网络,这个网络能够如你所愿地对MNIST数据集进行分类。最终模型如下图:

 

 

3. 总结

为什么逐层预训练的SAE有不错的效果?一个直观的解释是,预训练好的网络在一定程度上拟合了训练数据的结构,这使得整个网络的初始值是在一个合适的状态,便于有监督阶段加快迭代收敛。当然,有不少研究提出了很好的初始化策略,再加上现在常用的dropout、ReLU,直接去训练一个深层网络已经不是问题。

最后,多说一句,除了AE和SAE这种逐层预训练的方式外,还有另外一条类似的主线,即限制玻尔兹曼机(RBM)与深度信念网络(DBN)。

4 堆叠式降噪自动编码器

对于单隐层的自动编码器,通常利用反向传播算法的诸多变种之一来进行训练(其中最典型的方法是随机梯度下降法), 就可以取得非常有效的结果。但是,如果仍将其应用于多隐层的网络中,反向传播的训练方法就会产生一些问题:通过最初的几层后, 误差会变得极小, 训练也随之变得无效。尽管更多先进的反向传播方法一定程度上缓解了这一问题, 但依然无法解决学习速度缓慢的问题,尤其是当训练数据量有限时, 该问题更为明显。 正如前面所提到的,如果可以通过把每一层当作一个简单的自解码器来进行预训练,然后再进行堆叠,那么训练效率就会得到大大地提高。正如图二所示,先对每个单隐层的降噪自动编码器单元进行无监督预训练,然后再进行堆叠,最后进行整体的反向调优训练,就得到了一个两层隐藏层结构的堆叠式降噪自动编码器
 

è¿éåå¾çæè¿°

两个DA单元的预训练完毕后,最后要进行的是整体的反向调优训练。调优训练的代价函数也可以采用上述提到的代价函数,并利用梯度下降法自顶到底(预训练时的反向误差传播只有两层,而这里的误差反向传播为三层)进行权重和偏置值的更新。

  • 10
    点赞
  • 61
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
下面是一个使用PyTorch实现栈自编码器和基于Attention机制的LSTM对过程参数进行特征提取和预测的示例代码: ```python import torch import torch.nn as nn import torch.optim as optim import numpy as np # 栈自编码器模型 class SAE(nn.Module): def __init__(self, input_size, hidden_sizes): super(SAE, self).__init__() self.encoder = nn.Sequential( nn.Linear(input_size, hidden_sizes[0]), nn.ReLU(), nn.Linear(hidden_sizes[0], hidden_sizes[1]), nn.ReLU(), nn.Linear(hidden_sizes[1], hidden_sizes[2]) ) self.decoder = nn.Sequential( nn.Linear(hidden_sizes[-1], hidden_sizes[-2]), nn.ReLU(), nn.Linear(hidden_sizes[-2], hidden_sizes[-3]), nn.ReLU(), nn.Linear(hidden_sizes[-3], input_size) ) def forward(self, x): x = self.encoder(x) x = self.decoder(x) return x # 基于Attention机制的LSTM模型 class AttentionLSTM(nn.Module): def __init__(self, input_size, hidden_size, num_layers, attention_size): super(AttentionLSTM, self).__init__() self.lstm = nn.LSTM(input_size, hidden_size, num_layers, batch_first=True) self.attention = nn.Sequential( nn.Linear(hidden_size, attention_size), nn.Tanh(), nn.Linear(attention_size, 1), nn.Softmax(dim=1) ) def forward(self, x): output, _ = self.lstm(x) attention_weights = self.attention(output) context = torch.bmm(attention_weights.transpose(1, 2), output) return context # 准备数据 input_data = np.random.rand(100, 10) # 假设有100个样本,每个样本有10个特征 input_data = torch.tensor(input_data, dtype=torch.float32) # 定义模型和优化器 sae = SAE(input_size=10, hidden_sizes=[32, 16, 8]) lstm = AttentionLSTM(input_size=8, hidden_size=16, num_layers=2, attention_size=8) optimizer = optim.Adam(list(sae.parameters()) + list(lstm.parameters()), lr=0.01) # 训练模型 for epoch in range(10): encoded_data = sae.encoder(input_data) context = lstm(encoded_data.unsqueeze(1)) output = sae.decoder(context.squeeze(1)) loss = nn.MSELoss()(output, input_data) optimizer.zero_grad() loss.backward() optimizer.step() print('Epoch: {}, Loss: {:.4f}'.format(epoch+1, loss.item())) # 使用模型进行预测 test_data = np.random.rand(1, 10) # 假设有1个测试样本,每个样本有10个特征 test_data = torch.tensor(test_data, dtype=torch.float32) encoded_test_data = sae.encoder(test_data) context = lstm(encoded_test_data.unsqueeze(1)) predicted_output = sae.decoder(context.squeeze(1)) print('Test Data:', test_data) print('Predicted Output:', predicted_output) ``` 这个示例代码中,首先定义了一个栈自编码器模型和一个基于Attention机制的LSTM模型,并将它们的参数同时进行优化。然后,使用输入数据训练模型,计算模型在每个epoch的损失,并输出。最后,使用训练好的模型对一个测试样本进行预测,并输出预测结果。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值