深度学习：深度神经网络实现技巧

最新推荐文章于 2022-08-26 10:55:47 发布

ShadyPi

最新推荐文章于 2022-08-26 10:55:47 发布

阅读量333

点赞数 1

分类专栏：深度学习与神经网络文章标签：深度学习 dnn 机器学习

本文链接：https://blog.csdn.net/ShadyPi/article/details/122784067

版权

深度学习与神经网络专栏收录该内容

19 篇文章 1 订阅

订阅专栏

文章目录

归一化
权值初始化
梯度检验

归一化

跟特征缩放很像，在之前的机器学习课程中我们也用过很多次了。主要作用就是将特征值的取值范围都变换成一个以原点为圆心的高维球体，求出每个样本的均值向量 $\mu$ 与标准差向量 $\sigma$ ，即
$\mu=\frac{1}{m}\sum_{i=1}^mx^{(i)}\\ \sigma^2=\frac{1}{m}\sum_{i=1}^m(x^{(i)}-\mu)^2$
之后，令 $x:=\frac{x-\mu}{\sigma}$ 就完成归一化了。

权值初始化

在深度神经网络中，有时会出现梯度爆炸/消失问题，这是因为在很深的网络中，从一段传播到另一端时会累乘许多个权值，即使权值矩阵都只比单位矩阵大一点或者小一点，在累乘出来以后依旧会指数增长变成一个很大或很小的值，对于梯度来说同理，这就是梯度爆炸/消失问题。

合理的初始化能够较有效地缓解这种问题，我们可以看到传播过程中有正向传播
$A^{[l]}=\sigma(Z^{[l]}) =\sigma(W^{[l]}A^{[l-1]}+b^{[l]})$
可以看到，向该层传递的节点数（即上一层节点数 $n^{[l-1]}$ ）越多，得到的 $Z^{[l]}$ 值就越可能偏大，反之则越可能偏小，所以我们将权值初始化为均值为0，方差为 $\frac{C}{n^{[l-1]}}$ 的正态分布，以此让计算值的大小尽可能适中，其中常数 $C$ 在使用ReLU函数作为激励函数时一般取2，使用逻辑函数或者 $\tanh$ 函数时一般取1。

梯度检验

跟机器学习中是一回事，不过新增了一个衡量标准，对于反向传播计算出的梯度向量 $d\theta$ 和用导数定义近似计算出的梯度向量 $d\theta_\text{approx}$ ，我们计算
$\frac{||d\theta_\text{approx}-d\theta||_2}{||d\theta_\text{approx}||_2+||d\theta||_2}$ 其中 $||\vec{x}||_2$ 为欧几里得度量。