机器学习总结（二）：梯度消失和梯度爆炸

最新推荐文章于 2025-03-31 09:26:38 发布

岸芃

最新推荐文章于 2025-03-31 09:26:38 发布

阅读量3.4w

点赞数 17

分类专栏：机器学习总结文章标签：机器学习神经网络

本文链接：https://blog.csdn.net/weixin_37933986/article/details/69255863

版权

本文介绍了神经网络训练中的梯度消失和梯度爆炸问题，重点讨论了sigmoid激活函数导致的梯度消失现象。为了解决这个问题，文章推荐使用ReLU及其变体，如Leaky ReLU，因为它们能更有效地传播梯度，避免梯度消失，并具有生物合理性、稀疏激活和高效计算等优点。ReLU在深度学习中已成为主流激活函数，且不需要预训练即可取得较好的效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

神经网络的训练过程通常分为两个阶段：前向传播和反向传播。
前向传播如下图所示，原理比较简单

上一层的神经元与本层的神经元有连接，那么本层的神经元的激活等于上一层神经元对应的权值进行加权和运算，最后通过一个非线性函数（激活函数）如ReLu，sigmoid等函数，最后得到的结果就是本层神经元的输出。逐层逐神经元通过该操作向前传播，最终得到输出层的结果。
反向传播由最后一层开始，逐层向前传播进行权值的调整，如下图所示：

前向传播得到的结果与实际的结果得到一个偏差，然后通过梯度下降法的思想，通过偏导数与残差的乘积通过从最后一层逐层向前去改变每一层的权重。通过不断的前向传播和反向传播不断调整神经网络的权重，最终到达预设的迭代次数或者对样本的学习已经到了比较好的程度后，就停止迭代，那么一个神经网络就训练好了。