自编码算法SAE

最新推荐文章于 2024-05-03 10:14:52 发布

FavoriteStar

最新推荐文章于 2024-05-03 10:14:52 发布

阅读量755

点赞数

分类专栏：深度学习文章标签：算法机器学习人工智能生成对抗网络深度学习

本文链接：https://blog.csdn.net/starandtiamo/article/details/127165660

版权

深度学习专栏收录该内容

27 篇文章 6 订阅

订阅专栏

这个和稀疏自编码器很类似。我是在学习宽度学习的算法中了解到这一部分，并且在相关论文中看到了这部分的讲解，希望能够用我能够理解的方式来进行介绍。

利用SAE将输入样本映射到特征节点的过程如下所示：

对于输入数据 $X$ ，自动编码器会尝试去学习一个函数，使得该函数的输出能够和输入尽可能接近，即：
$\hat{X}=f_{W_i,\theta_i}(X)\approx X$
其中 $W_i=\{W_{ei},\hat{W}_{ei}\}，\theta_i=\{\theta_{ei},\hat{\theta}_{ei}\}$ 。将此过程进行拆分，隐藏层的特征节点为：
$Z_i=g(X)=\phi_i(XW_{ei}+\theta_{ei})\\\phi_i(t)=\frac{1}{1+e^{-t}}$
然后通过相同的激活函数将所生成的特征节点映射回重构的向量：
$\hat{X}=g(Z_i)=\phi_i(Z_i\hat{W}_{ei}+\hat{\theta}_{ei})$
那么此过程的平均重建误差为：
$J_E(W_i,\theta_i)=\frac{1}{Num}\sum_{t=1}^{Num}\frac{1}{2}\Vert \hat{X}(t)-X(t)\Vert^2$
$N u m$ 为样本的数目。

一般情况下，如果神经元的输出接近于1那我们认为它是活跃的；如果输出接近于0，那么认为它是不活跃的。稀疏性约束迫使神经元大部分时间都处于不活跃状态。令 $Z_{ij}(t)$ 表示第i组特征节点的第j个节点，此节点平均激活度为：
$\hat{p}_{ij}=\frac{1}{Num}\sum_{t=1}^{Num}Z_{ij}(t)$
为了实现稀疏性，会对平均激活度加上限制：
$\hat{p}_{ij}=p$
其中 $p$ 是一个稀疏度参数，通常选择为接近于零的正数。为了实现这一点，我们需要在损失函数中加入对应的惩罚项。

可以用KL散度来衡量此处 $\hat{p}_{ij}$ 与 $p$ 之间的差距：
$J_{KL}(p\mid \mid \hat{\pmb{p}}_i)=\sum_{j=1}^{k_i}J_{KL}(p\mid \mid \hat{p}_{ij})\\=\sum_{j=1}^{k_i}(p\log \frac{p}{\hat{p}_{ij}}+(1-p)\log \frac{1-p}{1-\hat{p}_{ij}})$
同时为了防止过拟合，也在损失函数中增加正则化项，因此SAE最终的损失函数为：
$J_{SAE}(\pmb{W}_i,\theta_i)=J_E(\pmb{W}_i,\theta_i)+\alpha J_{KL}(p\mid \mid \hat{\pmb{p}}_i)\\+\frac{\lambda}{2}(\sum_{j=1}^M\sum_{l=1}^{k_i}(W_{ei}^{jl})^2+\sum_{j=1}^{k_i}\sum_{l=1}^M(\hat{W}^{jl}_{ei})^2)$
那么同样可通过梯度下降法来求解。