局部极小值与鞍点概念
- 局部极小值:损失函数中梯度为零的点,且在该点附近所有方向上的损失都高于该点。
- 鞍点:梯度为零的点,但不是局部极小值或局部极大值,某些方向上损失增加,而另一些方向上损失减少。
临界点分析
- 泰勒级数近似:用于描述损失函数在参数θ′附近的局部形状。 L(θ)≈L(θ′)+(θ−θ′)Tg+12(θ−θ′)TH(θ−θ′)L(θ)≈L(θ′)+(θ−θ′)Tg+21(θ−θ′)TH(θ−θ′)
- 梯度(g):损失函数的一阶微分,指向最陡下降方向。
- 海森矩阵(H):包含损失函数的二阶微分,用于描述误差表面的曲率。
判断临界点类型
- 正定矩阵:所有特征值都是正数,表示局部极小值。
- 负定矩阵:所有特征值都是负数,表示局部极大值。
- 鞍点:特征值有正有负,表示临界点是鞍点。
逃离鞍点的策略
- 使用具有动量的优化算法,如SGD with momentum。
- 应用自适应学习率的优化算法,如Adam。
- 利用批量归一化技术改变误差表面。
局部极小值的常见性
- 在高维空间中,局部极小值可能不如鞍点常见。
- 实验表明,大多数情况下遇到的临界点是鞍点,而不是局部极小值。
实验观察
- 最小值比例:正特征值数量与总特征值数量的比率。 最小值比例=正特征值数量总特征值数量最小值比例=总特征值数量正特征值数量
- 实验数据显示,大多数情况下,最小值比例不高,意味着鞍点比局部极小值更常见。