深度学习-学习笔记(数值稳定性)

本文探讨了深度学习中数值稳定性的重要性,主要关注梯度消失和梯度爆炸现象。通过分析梯度计算过程,展示了在深层神经网络中如何导致这些问题。激活函数的选择和参数初始化对稳定性有直接影响。梯度爆炸可能导致参数超出计算机浮点数范围,而梯度消失则阻碍了参数更新。为解决这些问题,可以采用ResNet、LSTM、梯度归一化和权重初始化等方法。
摘要由CSDN通过智能技术生成

最近看李沐老师的动手学深度学习,有很多收获,因此将老师讲课内容稍作总结,以便以后翻阅学习

数值稳定性

数值稳定性是神经网络模型一个非常重要的内容,模型不稳定一般与梯度消失梯度爆炸有关。梯度消失时,模型会停止训练,梯度爆炸时,参数会变得特别大。
为了保持数值的稳定,我们需要选择合适的参数初始化方案和合理的非线性激活函数

梯度的计算

一个d层的神经网络,每一层用 l l l表示,则 h ( l ) \boldsymbol{h}^{(l)} h(l)表示第 l l l层的输出, h ( l − 1 ) \boldsymbol{h}^{(l-1)} h(l1)表示第 l l l层的输入( h ( 0 ) = x \boldsymbol{h}^{(0)}=\boldsymbol{x} h(0)=x),则
h ( l ) = f l ( h l − 1 ) \boldsymbol{h}^{(l)}=f_{l}(\boldsymbol{h}^{l-1}) h(l)=fl(hl1) y = l ○ f d ○ . . . ○ f 1 ( x ) y=l○f_{d}○...○f_{1}(x) y=lfd...f1(x)(这里y包含了损失函数,不是模型的输出)
∂ l ∂ W l = ∂ l ∂ h d ∂ h d ∂ h d − 1 . . . ∂ h l + 1 ∂

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值