3•1 局部极小值与鞍点
3•1•1临界点及其种类
定义:临界点是指参数对损失函数的微分为零的点。
种类:
局部极小值:参数在该点附近的所有方向上,损失都是局部最小的。
鞍点:梯度为零,但既不是局部极小值也不是局部极大值的点,其形状类似于马鞍。
局部极大值:参数在该点附近的所有方向上,损失都是局部最大的。
3.1.2 判断临界值种类的方法
泰勒级数近似:
其中,
L(θ′)为损失函数在 θ′处的值,g为梯度,H为海森矩阵。
海森矩阵:
特征值:
若 H 的所有特征值均为正,则为局部极小值。
若 H 的所有特征值均为负,则为局部极大值。
若 H的特征值有正有负,则为鞍点。
3.1.3 逃离鞍点的方法
海森矩阵特征向量:
通过海森矩阵的负特征值对应的特征向量,可以找到使损失下降的参数更新方向。
但在实践中,由于海森矩阵的计算量极大,通常不会直接计算。
高维空间中的误差表面:
在高维空间中,低维的局部极小值可能只是高维的鞍点。
实验表明,深度学习中遇到的更多的是鞍点而非局部极小值。