本章介绍深度模型中的常见算法及优化,部分先简单介绍其概念,后续再继续展开。
1、神经网络优化中的挑战
首先看下深度网络优化中的挑战
1、病态
比如梯度范数随着时间不收敛
2、局部极小值
3、高点、鞍点和其他平坦区域
鞍点:某个横截面(方向)上局部最小值,某个横截面上取局部极大值
4、悬崖和梯度爆炸
5、长期依赖
由于变深的结构使模型丧失了学习到先前信息的能力,让优化变得极其困难
2、基本算法
2.1 随机梯度下降
随机梯度下降(SGD)及其变种是机器学习中最常用的优化算法。每次随机提取m个小批量(独立分布的)样本,
进行优化。实际工作这个方法非常有效,比如它比较容易绕过局部极小值,鞍点。
随机梯度下降(SGD)在第k 个训练迭代的更新
SGD算法中的一个关键参数是学习率。之前,我们介绍的SGD使用固定的学习率。
在实践中,有必要随着时间的推移逐渐降低学习率,因此我们将第k 步迭代的学习率记