深度学习笔记(2)：1.11 权重初始化

最新推荐文章于 2024-08-17 21:31:40 发布

起个名字好难.JPG

最新推荐文章于 2024-08-17 21:31:40 发布

阅读量385

点赞数

分类专栏：深度学习文章标签：权重初始化

本文链接：https://blog.csdn.net/kkkkkiko/article/details/81187368

版权

权重初始化对神经网络的训练至关重要，防止梯度爆炸和消失。通常，权重的方差设置为1/n[L-1]，但在ReLU激活函数下，更合适的是2/n[L-1]。此外，tanh激活函数的方差建议为1/n[L-1]，或2/(n[L-1]+n[L])。初始化时结合数据标准化，有助于优化网络性能。调整权重初始化的超参数虽有一定作用，但相对其他超参数调优的影响较小。

摘要由CSDN通过智能技术生成

1.11 权重初始化

经过1.10节的分析，我们知道过大或过小的权重设置可能会带来梯度爆炸或消失的问题，严重影响我们计算神经网络的速度，加大神经网络的训练难度。那么应该如何初始化权重呢？如下图所示：

我们用单个神经元举例，这里同样不考虑b的情况(b=0)，这时Z=W1X1+W2X2+...+WnXn，当n很大时，我们希望能够存在较小的Wi，以避免Z过大。面对这个问题，我们的直观想法是希望W的取值能够与n成反比，我们可以通过限制W的方差来限制W的大小。最简单的思路就是，我们假设W的方差是1/n，如上图所示，与n成反比。

基于这种思路，我们可以在初始化时使用图中命令随机生成W，np.random.randn(shape)保证我们随机生成同样维度的矩阵，且其元素均满足0-1的均匀分布，而np.sqrt(1/n[L-1])是指1/n[L-1]的开方。我们知道，第L层的Z值是由第L层的W和第(L-1)层的X求解而得，所以这里影响第L层W的方差的n是指上一层的节点数。0-1均匀分布的方差我们知道是1/12，乘上np.sqrt(1/n[L-1])，我们知道W[L]方差变为1/12*(1/n[L-1])，与我们的期望值成正比，且与n[L-1]成反比，达到我们的要求。

方差设为1/n是我们对于这类问题的直觉，但实际证明，当我们采用的激活函数是ReLU时，这时将W方差设为2/n[L-1]