为什么网络越深越难训练

最新推荐文章于 2022-08-30 13:25:24 发布

东方yu晓

最新推荐文章于 2022-08-30 13:25:24 发布

阅读量1.1k

点赞数

分类专栏：笔记文章标签：神经网络

本文链接：https://blog.csdn.net/qq_35900810/article/details/106048064

版权

笔记专栏收录该内容

7 篇文章 0 订阅

订阅专栏

梯度消失和梯度爆炸使得网络越深越难训练

我们都知道神经网络的计算过程依靠的是前向传播和误差反向传播。误差反向传播用于更新网络参数，但是由于误差反向传播主要依靠于链式求导法则，即就是某一层的参数调整是依赖于它后边所有层与误差的偏导数的，这就使得不同层的参数的训练速度不同。靠近输入层的网络层容易发生梯度消失/爆炸，可以简单理解为当各层的偏导数比较小时，反传至输入层时候梯度就会特别小(消失)，反之就会特别大(爆炸)，梯度非常大或者非常小就会使得网络参数更新速度过大/过小。