本文转载自:https://blog.csdn.net/qq_25737169/article/details/78847691 目录 前言 第一部分:为什么要使用梯度更新规则 第二部分:梯度消失、爆炸 1.深层网络角度 2.激活函数角度 第三部分:梯度消失、爆炸的解决方案 2.1 方案1-预训练加微调 2.2 方案2-梯度剪切、正则 2.3 方案3-relu、leakrelu、elu等激活函数 2.4 解决方案4-batchnorm 2.5 解决方案5-残差结构 2.6 解决方案6-LSTM 参考资料: