相同点:两者都是临界点(critical point),在该点各参数梯度都为0
可以通过对该临界点损失函数进行泰勒展开估计,计算Hessian matrix的方法,来判断该点属于局部最小值或者鞍点,并且根据海森矩阵的特征向量对鞍点进行梯度下降。
但实际训练中参数很多的情况下,几乎不会陷入局部最小值,所以这里不做总结。
2.1 鞍点和局部最小值
于 2023-04-17 17:11:33 首次发布
相同点:两者都是临界点(critical point),在该点各参数梯度都为0
可以通过对该临界点损失函数进行泰勒展开估计,计算Hessian matrix的方法,来判断该点属于局部最小值或者鞍点,并且根据海森矩阵的特征向量对鞍点进行梯度下降。
但实际训练中参数很多的情况下,几乎不会陷入局部最小值,所以这里不做总结。