训练神经网络

神经网络的运行分为:前向传播、反向传播、参数更新:

前向传播:给定参数后,直接进行计算,输出预测结果;
反向传播:基于上一步的预测结果,计算损失函数值,然后计算相关参数的梯度;
参数更新:使用上一步计算得到的梯度进行更新,重复上述过程,直到收敛。

反向传播

如果前向传播得到的损失值为,求参数的梯度:,核心思想就是第l层的误差与第l+1层误差有关。

深度学习——反向传播(Backpropagation)_南方惆怅客的博客-CSDN博客_反向传播
感谢大佬的详细解释。

 虽然反向传播可以计算梯度,但是随着规模以及层数的增加,也带来了很多问题:

1.梯度消失

通过反向传播,我们知道第l层的误差是通过第l+1层的误差与两层之间的权重的加权,再乘以激活函数的导数得到的。如果导数<1,那么导数相乘,继续相乘,就会导致梯度变小,直至为0,梯度消失。参数无法得到很好的训练更新。

原因:激活函数的饱和性,例如,Sigmoid、Tanh都会,他们在函数值趋近于上下边界的时候,梯度都很小。办法就是换掉激活函数,比如用ReLu、LeakyReLu等等。
详见:激活函数的简单认识_科研苟Gamber的博客-CSDN博客

2.局部最优与鞍点

损失函数曲面:

损失函数有许多局部最优解,如果陷入局部最优,那么模型优化会非常困难。深度神经网络的局部最优也可以保证模型的效果。

鞍点:指的是梯度为0的点,但是它不是最大值或者最小值。由于此时梯度较小,模型的收敛速度下降,会给人一种陷入局部最优解的假象。

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值