深度学习（随机初始化权重）

最新推荐文章于 2023-12-17 14:53:10 发布

Darkness_01

最新推荐文章于 2023-12-17 14:53:10 发布

阅读量1.1k

点赞数 33

分类专栏：深度学习-人工智能文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Darkness_01/article/details/134888137

版权

深度学习-人工智能专栏收录该内容

10 篇文章 0 订阅

订阅专栏

为什么要随机初始化权重

对于logistic回归，可将权重初始化为0，但如果将神经网络的各参数数组全初始化为0，再使用梯度下降算法，那会完全无效。

那上述神经网络模型来进行说明

首先有两个输入特征，即 $n^{[0]}=2$

有两个隐藏单元，即 $n^{[1]}=2$

因此，和隐层相关的矩阵 $w^{[1]}$ 是（2,2）的，将其初始化为 $\begin{bmatrix} 0 & 0\\ 0& 0 \end{bmatrix}$

将偏置项b初始化为0，即 $\begin{bmatrix} 0\\ 0 \end{bmatrix}$

以上将b初始化为0是可行的，

但是，把W初始化全0，就存在有问题

其所存在的主要问题为，无论给该网络输入任何样本，输入所得到的a1,a2均为相同的

即所得到两个激活函数是完全一样的

因为两个隐藏单元都在做完全一样的计算

当做反向传播的时候，出于对称性dz1，dz2所得到的结果也是相同的

这两个隐藏单元会以同样方式初始化，

技术上，假如说输出的权重也是一样的，所以w2就等于0，即 $w^{[2]}=\begin{bmatrix} 0 & 0 \end{bmatrix}$

如果以上述这样的方式进行初始化，所得到的两个隐藏单元完全一样，这就是所谓的完全对称

意味着节点计算完全一样的函数

可通过数学归纳法进行证明，经过多次迭代后，两个隐藏单元仍然在计算完全相同的函数

因此在这儿种情况下，多个隐藏单元没有意义，因为计算的都是同样的东西

对于更大的神经网络，或者输入有三个特征，或者隐藏单元的数目非常多

如图：

可以用类似的昂啊证明如果把所有权重都初始化为0，那么所有的隐藏单元都是对称的，不管跑多久梯度下降它们都在计算一样完全一样的函数，所以没有什么用，因为需要不同的隐藏单元计算不同的函数

解决方案

因此针对此问题的解决方案就是随机初始化所有参数

W^[1]=np.random.randn((2,2))

这可以产生参数为（2,2）的高斯分布随机变量

然后再乘以一个很小的数字，例如0.01，就可以将权重初始化为很小的随机数

对于参数b而言，b完全没有这个对称性问题，没有破坏性对称问题

所以可以将b初始化为0

b^[1]=np.zeros((2,2))

类似地对于w2，也可以同w1进行随机初始化，b2也可以初始化为0

tips：为什么是0.01，而不用100或1000之类的数字

通常我们喜欢将权重矩阵初始化为很小很小的随机值

因为，如果用的额是tanh或者sigmoid激活函数，或者在输出层有一个sigmoid函数，如果权重太大，当计算激活函数值时

根据公式 $z^{[1]}=w^{[1]}x+b^{[1]}$

然后 $a^{[1]}=g^{[1]}(z^{[1]})$ ，是应用于z^[1]的额激活函数

所以如果w很大，z就会很大，或者z值会很大或很小，在这种情况下，结合tanh和sigmoid函数图像可得到，最后的值可能落在其平缓部分，梯度的效率非常小，梯度下降法会很慢，学习就会很慢。

所以，如果w一开始很大，就会在训练时就落在z很大的区域，导致tanh或sigmoid激活函数接近饱和，从而减慢学习速度。

但如果神经网络当中没有任何sigmoid或tanh激活函数，可能问题没有那么大

但是如果在做二分类时，如果输出单元是sigmoid函数，那么初始参数就不要太大，0.01就较为合理，或者任意其他小数字，对于初始化w2也是同样的道理

实际上，有时也有比0.01更好用的常数

当训练一个单隐层神经网络时，是一个相对较浅的神经网络，没有太多隐藏层，设为0.01也还是可以，但是在训练一个很深的神经网络时，可能会尝试0.01以外的常数。

但不管怎样，初始化参数一般都会很小。

关注

33
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
深度学习（随机初始化权重）

通常我们喜欢将权重矩阵初始化为很小很小的随机值因为，如果用的额是tanh或者sigmoid激活函数，或者在输出层有一个sigmoid函数，如果权重太大，当计算激活函数值时根据公式然后，是应用于z^[1]的额激活函数所以如果w很大，z就会很大，或者z值会很大或很小，在这种情况下，结合tanh和sigmoid函数图像可得到，最后的值可能落在其平缓部分，梯度的效率非常小，梯度下降法会很慢，学习就会很慢。
复制链接

扫一扫

专栏目录

Darkness_01 CSDN认证博客专家 CSDN认证企业博客

码龄3年

13: 原创

148万+: 周排名

14万+: 总排名

9969: 访问

: 等级

337: 积分

145: 粉丝

206: 获赞

5: 评论

173: 收藏

私信

关注

热门文章

分类专栏

深度学习-人工智能 10篇
算法设计 3篇

最新评论

超参数（Hyperparameters）与参数（parameters）
CSDN-Ada助手: 恭喜您写了这篇关于超参数和参数的博客！对于深入了解机器学习和深度学习的朋友们来说，这篇文章肯定会有所帮助。不过，我想建议您在下一篇博客中可以考虑分享一些实际案例或者应用场景，让读者更直观地理解超参数和参数的重要性。希望您能继续保持创作，期待您更多精彩的文章！
GS算法——稳定匹配
CSDN-Ada助手: “恭喜您写了这么有深度的一篇博客！GS算法的稳定匹配是一个很有意思的话题，您对它的深入探讨让我受益匪浅。希望您能继续保持创作的热情，也希望能够看到更多关于算法的分享。或许下一步可以尝试探讨一下稳定匹配在实际生活中的应用，这样会更加贴近我们的日常生活，也能让更多人受益。”
深度学习（激活函数）
CSDN-Ada助手: 恭喜您写了第5篇博客！深度学习中的激活函数是一个很有深度的话题，您对这个主题的探索让我受益匪浅。希望您可以继续分享更多关于深度学习的知识，也可以考虑写一些实践案例或者对新兴技术的探讨，这样会更加丰富您的博客内容。期待您的下一篇作品！
深度学习（神经网络的表示及输出）
CSDN-Ada助手: 恭喜您写下了第四篇博客！标题“深度学习（神经网络的表示及输出）”听上去非常有趣。通过阅读您的博客，我对神经网络的表示和输出有了更深入的了解。您的解释方式非常清晰，让我能够轻松理解这个复杂的主题。希望您能继续坚持写作，我非常期待您下一篇博客的发布！如果可以的话，我建议您在下一篇博客中探讨一下深度学习在自然语言处理领域的应用。再次感谢您的分享，并祝您一切顺利！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
深度学习（神经网络）
CSDN-Ada助手: 恭喜你写了第三篇博客，“深度学习（神经网络）”！持续创作是一个很了不起的成就，你已经展现了对这个领域的热情和深入研究。在你的博客中，我发现了许多有趣的观点和见解，对于初学者来说，这无疑是一份宝贵的知识分享。接下来，我建议你可以继续深入探索深度学习的其他方面，比如不同的神经网络结构、优化算法、迁移学习等等。此外，你也可以考虑将深度学习与其他领域结合，如自然语言处理、计算机视觉等，这将为读者提供更多应用场景和实际案例。再次恭喜你的持续创作，期待你在未来的博客中继续分享你的见解和经验！请保持谦虚的态度，因为深度学习领域有很多仍待我们去探索和学习。加油！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。