深度学习的实用层面 —— 1.11 神经网络的权重初始化

最新推荐文章于 2020-06-22 13:07:42 发布

然后就去远行吧

最新推荐文章于 2020-06-22 13:07:42 发布

阅读量214

点赞数

分类专栏：吴恩达深度学习

本文链接：https://blog.csdn.net/qq_37388085/article/details/103412576

版权

吴恩达深度学习专栏收录该内容

61 篇文章 30 订阅

订阅专栏

针对梯度消失或者梯度爆炸问题，我们想出了一个不完整的解决方案，虽然不能彻底解决问题，却很有用。有助于我们为神经网络更谨慎地选择随机初始化参数，为了更好地理解它，我们先举一个神经单元权重初始化的例子，然后再演变到整个神经网络。
在这里插入图片描述
来看只有一个神经元的情况，然后才是深度网络，如上图，单个神经元可能有4个输入特征，从 $x_1$ 到 $x_4$ ，经过 $a = g (z)$ 处理，最终得到 $\hat{y}$ 。稍后讲深度网络时，这些输入表示为 $a^{[l]}$ ，暂时我们用 $x$ 表示，根据图，可知 $z=w_1x_1+w_2x_2+...+w_nx_n$ ， $b = 0$ ，暂时忽略b。为了预防z值过大或者过小，你可以看到，n越大，我们希望 $w_i$ 越小，因为z是 $w_ix_i$ 的和。如果你把很多此类项相加，希望每项值更小，最合理的方法就是设置 $Var(w_i)=\frac{1}{n}$ ，Var()代表方差，n表示神经元的输入特征数量，实际上你要做的就是设置某层权重矩阵 $W$ 等于 $np.random.randn(W.shape)*np.sqrt(\frac{1}{n^{[l-1]}})$ 结果如果你使用的是Relu激活函数而不是 $\frac{1}{n}$ ，方差 $Var(w_i)$ 设置为 $Var(w_i)=\frac{2}{n}$ 效果会更好。

初始化时，尤其hi使用Relu激活函数时， $g^{[l]}(z)=Relu(z)$ ，他取决于你对随机变量的熟悉程度，这是高斯随机变量，然后乘于它的平方根，也就是引用方差 $Var(w_i)$ ，方差公式中使用 $n^{[l-1]}$ 是因为这个例子中特征是不变的，但一般情况下，l层上的每个神经元都有 $n^{[l-1]}$ 个输入。如果激活函数的输入特征被零均值，标准方差为1，z也会调整到相似的范围，这就没解决问题，但它确实降低了梯度消失和梯度爆炸的问题，因为它给权重矩阵W设置了合理值，你也知道，他不能比1大很多，也不能比1小很多，所以梯度没有爆炸或者消失过快。

刚刚提到的函数是Relu激活函数，对于其它激活函数，如Tanh激活函数，常数1比常数2更有用，即 $np.sqrt(\frac{1}{n^{[l-1]}})$ ，同时还有其它的公式，如 $np.sqrt(\frac{2}{n^{[l-1]}+n^{[l]}})$ 。

实际上，所有这些公式只是给你一个起点，它们给出初始化权重矩阵的方差的默认值，如果你想添加方差，方差参数则是另一个你需要调整的超级参数，可以给公式 $np.sqrt(\frac{2}{n^{[l-1]}})$ 添加一个乘数参数。有时候调优该超参数的效果一般，这并不是我们想调优的首要超参数，但已经发现调优过程中产生的问题，虽然调优该参数能起到一定作用，但考虑到相比调优其它超级参数的重要性，通常把这个超参数的优先级放的比较低。

希望可以对梯度下降或者梯度消失以及如何为权重矩阵初始化合理值有了一个直观认识，希望你设置的权重矩阵，既不会增长过快，也不会太快下降到0，从而训练出一个权重或梯度不会增长或消失过快的深度网络。我们在训练深度网络时，这也是加快训练速度的技巧。

然后就去远行吧

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度学习的实用层面 —— 1.11 神经网络的权重初始化

针对梯度消失或者梯度爆炸问题，我们想出了一个不完整的解决方案，虽然不能彻底解决问题，却很有用。有助于我们为神经网络更谨慎地选择随机初始化参数，为了更好地理解它，我们先举一个神经单元权重初始化的例子，然后再演变到整个神经网络。来看只有一个神经元的情况，然后才是深度网络，如上图，单个神经元可能有4个输入特征，从x1x_1x1到x4x_4x4，经过a=g(z)a=g(z)a=g(z)处理，最终得到...
复制链接

扫一扫

专栏目录