训练神经网络

本文介绍了神经网络中的反向传播过程,包括前向传播、反向传播和参数更新。反向传播用于计算损失函数的梯度,但随着网络规模增长,会遇到梯度消失和局部最优解的问题。梯度消失可能因激活函数饱和性导致,而局部最优解可能导致模型优化困难。解决方法包括选择适当的激活函数和应对鞍点问题。
摘要由CSDN通过智能技术生成

神经网络的运行分为:前向传播、反向传播、参数更新:

前向传播:给定参数后,直接进行计算,输出预测结果;
反向传播:基于上一步的预测结果,计算损失函数值,然后计算相关参数的梯度;
参数更新:使用上一步计算得到的梯度进行更新,重复上述过程,直到收敛。

反向传播

如果前向传播得到的损失值为,求参数的梯度:,核心思想就是第l层的误差与第l+1层误差有关。

深度学习——反向传播(Backpropagation)_南方惆怅客的博客-CSDN博客_反向传播
感谢大佬的详细解释。

 虽然反向传播可以计算梯度,但是随着规模以及层数的增加,也带来了很多问题:

1.梯度消失

通过反向传播,我们知道第l层的误差是通过第l+1层的误差与两层之间的权重的加权,再乘以激活函数的导数得到的。如果导数<1,那么导数相乘,继续相乘,就会导致梯度变小,直至为0,梯度消失。参数无法得到很好的训练更新。

原因:激活函数的饱和性,例如,Sigmoid、Tanh都会,他们在函数值趋近于上下边界的时候,梯度都很小。办法就是换掉激活函数,比如用ReLu、LeakyReLu等等。
详见:激活函数的简单认识_科研苟Gamber的博客-CSDN博客

2.局部最优与鞍点

损失函数曲面:

损失函数有许多局部最优解,如果陷入局部最优,那么模型优化会非常困难。深度神经网络的局部最优也可以保证模型的效果。

鞍点:指的是梯度为0的点,但是它不是最大值或者最小值。由于此时梯度较小,模型的收敛速度下降,会给人一种陷入局部最优解的假象。

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值