深度学习——权重初始化

文章讨论了神经网络中权重初始化的重要性,指出零初始化可能导致对称性问题。推荐使用随机初始化来打破对称,如He初始化针对ReLU,Xavier初始化针对不同激活函数。提及梯度消失/爆炸问题和优化速度的影响。参考吴恩达的课程作业提供详细解释。
摘要由CSDN通过智能技术生成

神经网络初始化

零初始化

通常,将所有权重初始化为零会导致网络无法打破对称性。 这意味着每一层中的每个神经元都将学习相同的东西,并且当你只训练一层的神经网络,且该网络的性能不如线性分类器,例如逻辑回归。

  • 权重 W [ l ] W^{[l]} W[l]应该随机初始化以打破对称性。
  • 将偏差 b [ l ] b^{[l]} b[l]初始化为零是可以的。只要随机初始化了 W [ l ] W^{[l]} W[l],对称性仍然会被破坏。

随机初始化

​ 为了打破对称性,让我们随机设置权重。 在随机初始化之后,每个神经元可以继续学习其输入的不同特征。

  • 当损失一开始很高是因为较大的随机权重值,对于某些数据,最后一层激活函数sigmoid输出的结果非常接近0或1,并且当该示例数据预测错误时,将导致非常高的损失。当 l o g ( a [ 3 ] ) = l o g ( 0 ) log(a^{[3]})=log(0) log(a[3])=log(0)时,损失值达到无穷大。

    初始化不当会导致梯度消失/爆炸,同时也会减慢优化算法的速度。

    训练较长时间的网络,将会看到更好的结果,但是使用太大的随机数进行初始化会降低优化速度。

  • 将权重初始化为非常大的随机值效果不佳。

  • 初始化为较小的随机值会更好。

He初始化

  • Xavier初始化使用比例因子 sqrt(1./layers_dims[l-1])来表示权重:建议使用tanh激活层
  • He初始化使用sqrt(2./layers_dims[l-1]):建议使用的ReLU激活层 。

详情参考吴恩达课后编程作业

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值