深度学习入门 ---稀疏自编码器

最新推荐文章于 2024-07-28 16:03:13 发布

Jiede1

最新推荐文章于 2024-07-28 16:03:13 发布

阅读量2.2w

点赞数 8

分类专栏：机器学习深度学习文章标签：深度学习神经网络

本文链接：https://blog.csdn.net/jiede1/article/details/76681371

版权

本文介绍了稀疏自编码器在无类别标签数据上的作用，解释了为何需要隐含层的稀疏性，并展示了如何通过添加L1正则化实现稀疏性。稀疏自编码器通过神经网络学习输入数据的重要特征，用于数据降维和特征学习。文章还探讨了模型的构建、优化目标函数的调整以及反向传播算法的更新。最后，提到了代码实现资源和建议读者自行实现以加深理解。

摘要由CSDN通过智能技术生成

在学习稀疏自编码器之前，需要读者有BP神经网络的基础

1. 为什么要用稀疏自编码器

对于没有带类别标签的数据，由于为其增加类别标记是一个非常麻烦的过程，因此我们希望机器能够自己学习到样本中的一些重要特征。通过对隐藏层施加一些限制，能够使得它在恶劣的环境下学习到能最好表达样本的特征，并能有效地对样本进行降维。这种限制可以是对隐藏层稀疏性的限制。
如果给定一个神经网络，我们假设其输出与输入是相同的，然后训练调整其参数，得到每一层中的权重。自然地，我们就得到了输入的几种不同表示（每一层代表一种表示），这些表示就是特征。自动编码器就是一种尽可能复现输入信号的神经网络。为了实现这种复现，自动编码器就必须捕捉可以代表输入数据的最重要的因素，就像PCA那样，找到可以代表原信息的主要成分。
当然，我们还可以继续加上一些约束条件得到新的Deep Learning方法，如：如果在AutoEncoder的基础上加上L1的Regularity限制（L1主要是约束隐含层中的节点中大部分都要为0，只有少数不为0，这就是Sparse名字的来源），我们就可以得到Sparse AutoEncoder法。
之所以要将隐含层稀疏化，是由于，如果隐藏神经元的数量较大（可能比输入像素的个数还要多），不稀疏化我们无法得到输入的压缩表示。具体来说，如果我们给隐藏神经元加入稀疏性限制，那么自编码神经网络即使在隐藏神经元数量较多的情况下仍然可以发现输入数据中一些有趣的结构。

2. 稀疏自编码器的解释

稀疏性可以被简单地解释如下。如果当神经元的输出接近于1的时候我们认为它被激活，而输出接近于0的时候认为它被抑制，那么使得神经元大部分的时间都是被抑制的限制则被称作稀疏性限制。这里我们假设的神经元的激活函数是sigmoid函数。如果你使用tanh作为激活函数的话，当神经元输出为-1的时候，我们认为神经元是被抑制的。

3. 模型

这里写图片描述
我们的目标是，使得 $h_{w,b}(x)=x$ 。并且通过隐含层，得到输入的压缩表示。