深度学习笔记：稀疏自编码器（3）——稀疏自编码算法

本文链接：https://blog.csdn.net/wanz2/article/details/52997883

有了神经网络和反向传播的基础，我们就可以将其应用到稀疏自编码器中了。稀疏自编码器属于非监督学习，主要通过尝试学习一个 $h_{W,b}(x)\approx x$ 的函数，来提取输入值 $x$ 中的特征。

0.本文中使用的符号

本文中使用的符号大体与上一篇文章相同，在此仅列出一些新增加的符号和需要注意的符号

符号	描述
$m$ 样本总数 $a_{j}^{(2)}$ 第2层第 $j$ 个神经元的激活度
$a_{j}^{(2)}(x)$ 在给定输入值为 $x$ 的情况下，第2层第 $j$ 个神经元的激活度 $\hat{\rho_{j}}$ $\hat{\rho_{j}}=\frac{1}{m}\sum_{i=1}^{m}[a_{j}^{(2)}(x^{(i)})]$ 表示第2层第 $j$ 个隐藏神经元在训练集上的平均活跃度
$\rho$ 表示稀疏性参数，通常是一个接近0的值（如 $\rho=0.05$ ），可以令 $\hat{\rho_{j}}=\rho$ ，来对神经元 $a_{j}^{(2)}$ 的稀疏度进行限制 $s_2$ 第2层（隐藏层）神经元的数量 $h_{W,b}(x)$ 输入值为 $x$ ，神经网络中权值和偏置项分别为 $W,b$ 的情况下的输出值 1.什么是稀疏自编码器先上图：上图为有一个隐藏层的稀疏自编码器示意图。稀疏自编码器为非监督学习，其所使用的样本集 $\{x^{(1)},x^{(2)},...,x^{(m)}\}$ 为没有类别标记的样本，我们希望令输出值 $h_{W,b}(x)$ 与输入值 $x$ 近似相等。 2.为什么要用稀疏自编码器由于为数据人工增加类别标记是一个非常麻烦的过程，我们希望机器能够自己学习到样本中的一些重要特征。通过对隐藏层施加一些限制，能够使得它在恶劣的环境下学习到能最好表达样本的特征，并能有效地对样本进行降维。这种限制可以是对隐藏层稀疏性的限制。 3.稀疏性限制 3.1稀疏性当使用sigmoid函数作为激活函数时，若神经元输出值为1，则可认为其被激活，若神经元输出值为0，则可认为其被抑制（使用tanh函数时，代表激活和抑制的值分别为1和-1）。稀疏性限制就是要保证大多数神经元输出为0，即被抑制的状态。 3.2如何限制隐藏层稀疏性在本文开始所给出的稀疏自编码网络中，为了限制隐藏结点稀疏性，可以进行如下表示： 1. 使用 $a_{j}^{(2)}$ 表示第2层第 $j$ 个神经元的激活度。 2. 使用 $a_{j}^{(2)}(x)$ 表示在给定输入值为 $x$ 的情况下，第2层第 $j$ 个神经元的激活度。 3. 使用 $\hat{\rho_{j}}=\frac{1}{m}\sum_{i=1}^{m}[a_{j}^{(2)}(x^{(i)})]$ 表示第2层第 $j$ 个隐藏神经元在训练集上的平均活跃度。 4. 使用 $\rho$ 表示稀疏性参数，通常是一个接近0的值（如 $\rho=0.05$ ），可以令 $\hat{\rho_{j}}=\rho$ ，来对神经元 $a_{j}^{(2)}$ 的稀疏度进行限制。我们希望 $\hat{\rho_{j}}$ 和 $\rho$ 越接近越好，因此我们要对这两者有显著差异的情况进行惩罚，惩罚使用KL散度。 PS. 什么是KL散度？ KL散度又称相对熵，是对两个概率分布P和Q差异的非对称性度量，非对称性意味着 $D(P\\|Q)\neq D(Q\\|P)$ ， $D(P\\|Q)$ 表示用概率分布 $Q$ 来拟合概率分布 $P$ 时所产生的信息损耗。其定义为：给定随机变量 $s$ ，若为离散型随机变量： $D(P\\|Q)=\sum(p(i)log(\frac{p(i)}{q(i)}))$ ，此处p和q表示随机变量的分布律， $p(i)$ 表示随机变量 $s$ 取 $i$ 的概率连续型随机变量： $D(P\\|Q)=\int p(s)log(\frac{p(s)}{q(s)})d(s)$ ，此处 $p$ 和 $q$ 表示随机变量 $s$ 的概率密度 KL散度的性质是，当 $P=Q$ 时值为0，随着 $P$ 和 $Q$ 差异增大而递增。在这里，我们是要用 $\hat{\rho_j}$ 去逼近 $\rho$ ，这里的KL散度是： $\sum_{j=1}^{s_2}KL(\rho \\| \hat{\rho}_j)=\sum_{j=1}^{s_2}\rho log\frac{\rho}{\hat{\rho}_j}+(1-\rho)log\frac{1-\rho}{1-\hat{\rho}_j}$ 于是我们在代价函数中加入这一惩罚因子，代价函数就变成： $J_{sparse}(W,b)=J(W,b)+\beta \sum_{j=1}^{s_2}KL(\rho \\| \hat{\rho}_j)$ 代价函数改变了，在反向传导时残差公式也要做出相应的改变，之前隐藏层第 $i$ 个结点残差为： $\delta_{i}^{(2)}=(\sum_{j=1}^{s_{3}}W_{ji}^{(2)}\delta_{j}^{(3)})f'(z_{i}^{(2)})$ 现在应该将其换成： $\delta_{i}^{(2)}=(\sum_{j=1}^{s_{3}}W_{ji}^{(2)}\delta_{j}^{(3)}+\beta (-\frac{\rho}{\hat{\rho}_i}+\frac{1-\rho}{1-\hat{\rho}_i}))f'(z_{i}^{(2)})$ 注意：在ufldl的自编码算法和稀疏性中的后向传播算法里，提到隐藏层第 $i$ 个结点残差为：但根据ufldl教程反向传导算法一节的推导，残差递推公式为：笔者自己根据公式推了一遍，同时加上自己的理解，笔者认为在中，累加的上限应该是 $s_3$ 而不是 $s_2$ ，因此在本文最后处的公式里写的是 $s_3$ ，但笔者由于还是在校学生，知识有限，此处还是存在疑问，恳请看到本文的同学能在这里指点一二，感激不尽！确定要放弃本次机会？福利倒计时 : : 立减 ¥ 普通VIP年卡可用立即使用 aaronwu2 关注关注 1 点赞踩 17 收藏觉得还不错? 一键收藏 1 评论复制链接分享到 QQ 分享到新浪微博扫一扫专栏目录《深度学习》学习笔记（一）：稀疏自编码器（Sparse Autoencoder） chenynCV的专栏 07-14 4万+ 本笔记主要记录学习《深度学习》的总结体会。主要学习途径为UFLDL教程，本篇记录我对稀疏自编码器（Sparse Autoencoder）的理解，并具有完整的matlab代码实现，可以直接运行查看效果。深度学习笔记之稀疏自编码器静静的学习就好 04-28 1307 本节以一道算法八股题为引，介绍稀疏自编码器。 1 条评论您还未登录，请先登录后发表或查看评论 Deep Learning学习随记（一）稀疏自编码器 weixin_30306905的博客 10-10 563 最近开始看Deep Learning，随手记点，方便以后查看。主要参考资料是Stanford 教授 Andrew Ng 的 Deep Learning 教程讲义：http://deeplearning.stanford.edu/wiki/index.php/UFLDL_Tutorial。这个讲义已经有人翻译了（赞一个），可以参见邓侃的新浪博客http://blog.sina.com.cn/s/... 自编码器（autoencoder）最新发布 qq_46146657的博客 07-28 1817 自编码器学习深度学习（十二）稀疏自编码 GarfieldEr007的专栏 01-27 5074 稀疏自编码原文地址：http://blog.csdn.net/hjimce/article/details/49106869 作者：hjimce 一、相关理论以前刚开始学CNN的时候，就是通过阅读theano的深度学习相关教程源码，对于CNN的整个过程才有了深入理解。之前虽然懂CNN的原理，但是对于其源码层的实现，到底要怎么搞，却有点模糊，之后学了theano的cn UFLDL：稀疏自编码器机器学习笔记 10-24 633 吴恩达的 CS294A 是一门很好的深度学习入门课程，打算接下来的学习以这个课程的内容为主。UFLDL Tutorial 是 CS294A 课程的 wiki 页，包含了课程讲义和作业。如果你对监督学习、逻辑回归、梯度下降等基础概念并不熟悉，可以先学习之前的课程。关于课程作业的 Python 代码已经放到了 Github 上，点击课程代码就能去 Github 查看（无法访问 Githu... 稀疏自编码器 03-26 自编码器的主要目的是通过无监督学习神经网络抽取样本的内在特征，也可以称之为有监督学习神经网络（样本标签即自身）。其基本思想是试图建立一个输出≈输入的神经网络，设置该网络的隐层神经元个数小于输入样本的维数，强制隐层抽取样本的潜在特征（只有当隐层抽取到原始输入的大部分特征，才有可能输出≈输入）。当然，我们也可以设置隐层神经单元个数大于输入维数，再通过加入稀疏性限制来发现输入数据的结构。总而言之，输入≈输出的神经网络+稀疏惩罚=稀疏自编码器学习笔记：深度学习（6）——基于深度学习的语言模型 Morganfs的博客 04-25 1505 预训练模型梳理：从NNLM到词嵌入、从ELMo到GPT&BERT，以及After GPT&BERT。用于社区检测的类深度自动编码器非负矩阵分解——中南大学彭汪祺--论文研读笔记11 08-04 作者还受到《Anomaly Detection with Robust Deep Autoencoders》的启发，提出将鲁棒深度自编码器（RDAE）引入DANMF，构建RDANMF模型，以增强模型对原始网络数据噪声的抵抗能力，进一步提高社区检测的鲁棒性。... 2020-3-21 深度学习笔记14 - 自编码器 5（使用自编码器学习流形-降维，收缩自编码器CAE） weixin_42555985的博客 04-09 2136 第十四章自编码器官网英文推荐 2020-3-8 深度学习笔记14 - 自编码器 1（欠完备自编码器） 2020-3-8 深度学习笔记14 - 自编码器 2（正则自编码器 - 稀疏自编码器（增加惩罚项） / 去噪自编码器（改变重构误差项）/ 惩罚导数作为正则） 2020-3-14 深度学习笔记14 - 自编码器 3（表示能力、层的大小和深度，随机编码器和解码器） 2020-3-15 深度学... 稀疏自编码器（UFLDL教程） 07-15 稀疏自编码器的MATLAB代码实现，按照UFLDL教程给出的教程进行补充编写。稀疏自编码深度学习的Matlab实现 04-03 稀疏自编码深度学习的Matlab实现，sparse Auto coding，Matlab code 稀疏自动编码器matlab代码-Nonnegativity-Constrained-Autoencoder-NCAE:用于实现深度学习的非负约 06-16 智能自动编码器matlab代码非负约束自编码器-NCAE 用于实现基于部件的深度学习的非负约束自动编码器 (NCAE) 的 Matlab 代码。参考： [1] 侯赛尼-阿斯尔，E.；祖拉达，JM； Nasraoui, O.，“使用具有非负性约束的稀疏自动编码器对基于部分的数据表示进行深度学习”，在神经网络和学习系统，IEEE 交易，第 99 卷，第 1-13 页 doi：10.1109 /TNNLS.2015.2479223 网址： [2] UFLDL 教程，深度学习基础（八）—— 稀疏自编码器 04-29 1926 自编码器神经网络尝试学习一个： hW,b(x)≈x h_{W,b}(x)\approx x 的函数，换句话说，它尝试逼近一个恒等函数（identity function，或叫证同函数），使得输出 x^\hat x 接近于输入 xx。恒等函数虽然看上去不太有学习的意义，但是当我们为自编码神经网络加入某些限制，比如限定隐藏神经元的数量，我们就可以从输入数据中发现一些有趣的结构。隐藏神经元数量较小稀疏自编码器_UFLDL：稀疏自编码器 weixin_39758494的博客 12-06 124 吴恩达的 CS294A 是一门很好的深度学习入门课程，打算接下来的学习以这个课程的内容为主。UFLDL Tutorial 是 CS294A 课程的 wiki 页，包含了课程讲义和作业。如果你对监督学习、逻辑回归、梯度下降等基础概念并不熟悉，可以先学习之前的课程。关于课程作业的 Python 代码已经放到了 Github 上，点击课程代码就能去 Github 查看，代码中的错误和改进欢... 深度学习算法中的稀疏自编码器（Sparse Autoencoders）牛肉胡辣汤 09-20 6389 在深度学习领域，自编码器（Autoencoders）是一种常用的无监督学习算法，用于学习数据的低维表示。而稀疏自编码器（Sparse Autoencoders）作为自编码器的一种变种，在一定程度上能够更好地学习到数据的稀疏特征表示。本文将介绍稀疏自编码器的基本原理、训练方法以及应用领域。 aaronwu2 CSDN认证博客专家 CSDN认证企业博客码龄9年暂无认证 8 原创 39万+ 周排名 169万+ 总排名 8万+ 访问等级 789 积分 40 粉丝 69 获赞 12 评论 154 收藏私信关注热门文章深度学习笔记：主成分分析（PCA）（1）——标准化、协方差、相关系数和协方差矩阵 29524 Caffe：Windows(64位)+VS2013下的Caffe(CPU Only)安装配置 14749 深度学习笔记：稀疏自编码器（3）——稀疏自编码算法 9189 压缩感知算法原理 8172 VMware虚拟CentOS 6.5在NAT模式下配置静态IP地址及Xshell远程控制配置 8046 分类专栏深度学习 7篇图像处理 1篇 Linux 1篇神经网络 2篇 Java 软件工程最新评论 Caffe：Windows(64位)+VS2013下的Caffe(CPU Only)安装配置 LeonaGreen: 请问您后来解决了吗 Caffe：Windows(64位)+VS2013下的Caffe(CPU Only)安装配置 billykan: 所以现在这个问题解决了吗 Caffe：Windows(64位)+VS2013下的Caffe(CPU Only)安装配置 super杰404: 你好，这两个caffe下载是不一样的啊，一个有windows文件，一个没有windows文件，深度学习笔记：稀疏自编码器（3）——稀疏自编码算法碧寒: 请问能用稀疏自动编码器对心电信号进行特征提取吗？压缩感知算法原理丸子姑娘vivi: 看了那么多，就这篇算是看懂点了，谢谢博主。我在想，如果信号的稀疏度不知道该怎么办？最新文章深度学习笔记：主成分分析（PCA）（1）——标准化、协方差、相关系数和协方差矩阵深度学习笔记：稀疏自编码器（4）——稀疏自编码器代码练习深度学习笔记：稀疏自编码器（2）——反向传导 2016年9篇目录目录分类专栏深度学习 7篇图像处理 1篇 Linux 1篇神经网络 2篇 Java 软件工程目录评论 1 被折叠的条评论为什么被折叠? 到【灌水乐园】发言查看更多评论添加红包祝福语请填写红包祝福语或标题红包数量个红包个数最小为10个红包总金额元红包金额最低5元余额支付当前余额3.43元前往充值 > 需支付：10.00元成就一亿技术人! 领取后你会自动成为博主和红包主的粉丝规则 hope_wisdom 发出的红包实付元使用余额支付点击重新获取扫码支付钱包余额 0 抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。 2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。余额充值

符号

描述

m $m$ 样本总数

a(2)j $a_{j}^{(2)}$ 第2层第

j $j$ 个神经元的激活度

a(2)j(x) $a_{j}^{(2)}(x)$ 在给定输入值为

x $x$ 的情况下，第2层第

j $j$ 个神经元的激活度

ρj^ $\hat{\rho_{j}}$

ρj^=1m∑mi=1[a(2)j(x(i))] $\hat{\rho_{j}}=\frac{1}{m}\sum_{i=1}^{m}[a_{j}^{(2)}(x^{(i)})]$ 表示第2层第

j $j$ 个隐藏神经元在训练集上的平均活跃度

ρ $\rho$ 表示稀疏性参数，通常是一个接近0的值（如

ρ=0.05 $\rho=0.05$ ），可以令

ρj^=ρ $\hat{\rho_{j}}=\rho$ ，来对神经元

a(2)j $a_{j}^{(2)}$ 的稀疏度进行限制

s2 $s_2$ 第2层（隐藏层）神经元的数量

hW,b(x) $h_{W,b}(x)$ 输入值为

x $x$ ，神经网络中权值和偏置项分别为

W,b $W,b$ 的情况下的输出值

1.什么是稀疏自编码器

先上图：
此处输入图片的描述
上图为有一个隐藏层的稀疏自编码器示意图。稀疏自编码器为非监督学习，其所使用的样本集 $\{x^{(1)},x^{(2)},...,x^{(m)}\}$ 为没有类别标记的样本，我们希望令输出值 $h_{W,b}(x)$ 与输入值 $x$ 近似相等。

2.为什么要用稀疏自编码器

由于为数据人工增加类别标记是一个非常麻烦的过程，我们希望机器能够自己学习到样本中的一些重要特征。通过对隐藏层施加一些限制，能够使得它在恶劣的环境下学习到能最好表达样本的特征，并能有效地对样本进行降维。这种限制可以是对隐藏层稀疏性的限制。

3.稀疏性限制

3.1稀疏性

当使用sigmoid函数作为激活函数时，若神经元输出值为1，则可认为其被激活，若神经元输出值为0，则可认为其被抑制（使用tanh函数时，代表激活和抑制的值分别为1和-1）。稀疏性限制就是要保证大多数神经元输出为0，即被抑制的状态。

3.2如何限制隐藏层稀疏性

在本文开始所给出的稀疏自编码网络中，为了限制隐藏结点稀疏性，可以进行如下表示：
1. 使用 $a_{j}^{(2)}$ 表示第2层第 $j$ 个神经元的激活度。
2. 使用 $a_{j}^{(2)}(x)$ 表示在给定输入值为 $x$ 的情况下，第2层第 $j$ 个神经元的激活度。
3. 使用 $\hat{\rho_{j}}=\frac{1}{m}\sum_{i=1}^{m}[a_{j}^{(2)}(x^{(i)})]$ 表示第2层第 $j$ 个隐藏神经元在训练集上的平均活跃度。
4. 使用 $\rho$ 表示稀疏性参数，通常是一个接近0的值（如 $\rho=0.05$ ），可以令 $\hat{\rho_{j}}=\rho$ ，来对神经元 $a_{j}^{(2)}$ 的稀疏度进行限制。
我们希望 $\hat{\rho_{j}}$ 和 $\rho$ 越接近越好，因此我们要对这两者有显著差异的情况进行惩罚，惩罚使用KL散度。

PS. 什么是KL散度？
KL散度又称相对熵，是对两个概率分布P和Q差异的非对称性度量，非对称性意味着 $D(P\|Q)\neq D(Q\|P)$ ， $D(P\|Q)$ 表示用概率分布 $Q$ 来拟合概率分布 $P$ 时所产生的信息损耗。其定义为：
给定随机变量 $s$ ，若为
离散型随机变量： $D(P\|Q)=\sum(p(i)log(\frac{p(i)}{q(i)}))$ ，此处p和q表示随机变量的分布律， $p(i)$ 表示随机变量 $s$ 取 $i$ 的概率
连续型随机变量： $D(P\|Q)=\int p(s)log(\frac{p(s)}{q(s)})d(s)$ ，此处 $p$ 和 $q$ 表示随机变量 $s$ 的概率密度
KL散度的性质是，当 $P=Q$ 时值为0，随着 $P$ 和 $Q$ 差异增大而递增。

在这里，我们是要用 $\hat{\rho_j}$ 去逼近 $\rho$ ，这里的KL散度是：
$\sum_{j=1}^{s_2}KL(\rho \| \hat{\rho}_j)=\sum_{j=1}^{s_2}\rho log\frac{\rho}{\hat{\rho}_j}+(1-\rho)log\frac{1-\rho}{1-\hat{\rho}_j}$
于是我们在代价函数中加入这一惩罚因子，代价函数就变成：
$J_{sparse}(W,b)=J(W,b)+\beta \sum_{j=1}^{s_2}KL(\rho \| \hat{\rho}_j)$
代价函数改变了，在反向传导时残差公式也要做出相应的改变，之前隐藏层第 $i$ 个结点残差为：
$\delta_{i}^{(2)}=(\sum_{j=1}^{s_{3}}W_{ji}^{(2)}\delta_{j}^{(3)})f'(z_{i}^{(2)})$
现在应该将其换成：
$\delta_{i}^{(2)}=(\sum_{j=1}^{s_{3}}W_{ji}^{(2)}\delta_{j}^{(3)}+\beta (-\frac{\rho}{\hat{\rho}_i}+\frac{1-\rho}{1-\hat{\rho}_i}))f'(z_{i}^{(2)})$

注意：在ufldl的自编码算法和稀疏性中的后向传播算法里，提到隐藏层第 $i$ 个结点残差为：
此处输入图片的描述
但根据ufldl教程反向传导算法一节的推导，残差递推公式为：

笔者自己根据公式推了一遍，同时加上自己的理解，笔者认为在中，累加的上限应该是 $s_3$ 而不是 $s_2$ ，因此在本文最后处的公式里写的是 $s_3$ ，但笔者由于还是在校学生，知识有限，此处还是存在疑问，恳请看到本文的同学能在这里指点一二，感激不尽！