吴恩达深度学习笔记(21)-神经网络的权重初始化为什么要随机初始化？

最新推荐文章于 2022-09-25 20:32:04 发布

极客Array

最新推荐文章于 2022-09-25 20:32:04 发布

阅读量6.5k

点赞数 5

分类专栏：深度学习吴恩达深度学习笔记文章标签：吴恩达权重随机初始化神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Harpoon_fly/article/details/84844621

版权

本文探讨了神经网络权重随机初始化的重要性。如果权重全为0，会导致隐藏层单元对输出的影响相同，阻碍梯度下降。解决办法是使用小的随机数初始化权重，避免激活函数饱和，促进网络学习。对于更深的神经网络，初始化常数选择可能有所不同，将在后续章节进一步讨论。

摘要由CSDN通过智能技术生成

随机初始化（Random+Initialization）

当你训练神经网络时，权重随机初始化是很重要的。

对于逻辑回归，把权重初始化为0当然也是可以的。

但是对于一个神经网络，如果你把权重或者参数都初始化为0，那么梯度下降将不会起作用。

让我们看看这是为什么？

有两个输入特征，n^{([0])=2，2个隐藏层单元n}([1])就等于2。因此与一个隐藏层相关的矩阵，或者说W^{([1])是2*2的矩阵，假设把它初始化为0的2*2矩阵，b}([1])也等于 [0 0]^T，把偏置项b初始化为0是合理的，但是把w初始化为0就有问题了。

那这个问题如果按照这样初始化的话，你总是会发现a_1^([1]) 和 a_2^{([1])相等，这个激活单元和这个激活单元就会一样。因为两个隐含单元计算同样的函数，当你做反向传播计算时，这会导致dz_1}([1]) 和 dz_2^{([1])也会一样，对称这些隐含单元会初始化得一样，这样输出的权值也会一模一样，由此W}([2])等于[0 0]；

在这里插入图片描述
如果你这样初始化这个神经网络，那么这两个隐含单元就会完全一样，因此他们完全对称，也就意味着计算同样的函数，并且肯定的是最终经过每次训练的迭代，这两个隐含单元仍然是同一个函数，令人困惑。

dW会是一个这样的矩阵&

最低0.47元/天解锁文章

关注

5
点赞
踩
32

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。