深度网络的预训练

最新推荐文章于 2024-06-12 15:26:04 发布

奋斗啊哈

最新推荐文章于 2024-06-12 15:26:04 发布

阅读量2.9k

点赞数 1

分类专栏：神经网络与深度学习文章标签：卷积网络深度学习有限波尔兹曼机自动编码器

本文链接：https://blog.csdn.net/foolsnowman/article/details/50846275

版权

神经网络与深度学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

无监督学习得到数据特征，可以在最高层加入一个分类器并通过监督学习进行微调。

1有限波尔兹曼机（RBM）

2自动编码器(Autoencoder)

2.1结构

这里写图片描述
输入层神经元个数等于输出层神经元的个数。

激活函数

线性
- 均方差激活函数
sigmoid
- 使用交叉熵损失函数
其他

2.2损失函数

以方差代价为例，单个样本的损失函数为：
$J(W,b;x,y)=\frac 1 2||h_{W,b}(x)-y||^2$
对包含 $m$ 个样本的数据集，训练的目标函数为

J (W, b) = [1 m \sum i = 1 m J (W, b; x (i), y (i))] + λ 2 \sum l = 1 n l - 1 \sum i = 1 S l \sum j = 1 S l + 1 w i, j (l) = [1 m \sum i = 1 m 1 2 | | h W, b (x (i)) - y (i) | | 2] + λ 2 \sum l = 1 n l - 1 \sum i = 1 S l \sum j = 1 S l + 1 w i, j (l) (1)

$\begin{align} J(W,b)&=[\frac 1 m\sum_{i=1}^mJ(W,b;x^{(i)},y^{(i)})]+\frac \lambda2\sum_{l=1}^{n_l-1}\sum_{i=1}^{S_l}\sum_{j=1}^{S_{l+1}}w_{i,j(l)} \\ &=[\frac 1 m\sum_{i=1}^m\frac 1 2||h_{W,b}(x^{(i)})-y^{(i)}||^2]+\frac \lambda2\sum_{l=1}^{n_l-1}\sum_{i=1}^{S_l}\sum_{j=1}^{S_{l+1}}w_{i,j(l)} \tag{1} \end{align}$

上式中第一项表示所有样本的平均损失，第二项是一个规则化项（或称为权值衰减项）,防止过拟合。

2.3 Sparse Autoencoder & Denoise Autoencoder

如果只有最小化重构误差这个限制，那么autoencoder可能不会抽取到最有效的特征，致使隐藏层的结点个数大于输入神经元的数目，解决这个问题有多种不同的方式。如增加稀疏性限制、增加噪声。

稀疏性

当隐藏层的神经元较多时，则希望尽可能多的隐藏神经元被抑制。如果激活函数为sigmoid，则神经元输出接近1时为激活状态，接近0时为抑制状态。
在给定输入 $x$ 的情况下，神经元 $j$ 的激活度为 $a_j(x)$ ,则 $j$ 的平均激活度为

ρ^j = 1 m \sum i = 1 m a j (x (i))

$\hat \rho_j=\frac 1 m\sum_{i=1}^ma_j(x^{(i)})$ 给自编码器增加稀疏性限制

ρ^= ρ

$\hat \rho=\rho$ 其中

ρ $\rho$ 为稀疏性系数，取接近0的值，如0.001。
可以使用相对熵（KL divergence）来表示

ρ^ $\hat \rho$ 和

ρ $\rho$ 的接近程度,

\sum j = 1 S 2 K L (ρ | | ρ^j) = \sum j = 1 S 2 ρ log ρ ρ ^ j + (1 - ρ) log 1 - ρ 1 - ρ ^ j (2)

$\sum_{j=1}^{S_2}KL(\rho||\hat\rho_j)=\sum_{j=1}^{S_2}\rho\log \frac \rho {\hat \rho_j}+(1-\rho)\log \frac {1-\rho}{1-\hat \rho_j} \tag{2}$ 其中

S2 $S_2$ 表示隐藏层神经元的个数。将相对熵加入式(1)的目标函数中得

J s p a r s e = J (W, b) + β \sum j = 1 S 2 K L (ρ | | ρ^j) (3)

$J_{sparse}=J(W,b)+\beta\sum_{j=1}^{S_2}KL(\rho||\hat\rho_j) \tag{3}$
这样发展为当隐藏层的神经元的数目较少时，即少于输入神经元的数目，可以得到原始数据的压缩表示。

噪声

在特征学习过程中增加随机噪声，这就是Denoise Autoencoder，这样得到的隐藏层更具有鲁棒性。通常的做法是对输入数据进行一定的“破坏”，比如随机选取一些输入项并将其他的项置为0.（注意对比RBM的CD训练算法中对输入数据的随机破坏）

参考

奋斗啊哈

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
深度网络的预训练

无监督学习得到数据特征，可以在最高层加入一个分类器并通过监督学习进行微调。结构输入层神经元个数等于输出层神经元的个数。激活函数线性均方差激活函数sigmoid 使用交叉熵损失函数其他损失函数以方差代价为例，单个样本的损失函数为： J(W,b;x,y)=12||hW,b(x)−y||2J(W,b;x,y)=\frac 1 2||h_{W,b}(x)-y||^2 对包含mm个样本的
复制链接

扫一扫

专栏目录