李沐《动手学深度学习》第 11 章笔记
优化目标:最小化目标函数,减小训练误差
深度学习目标:寻找合适的模型,减小泛化误差
深度学习中的优化挑战:
- 局部最小值: batch_size
- 鞍点: Hessian 矩阵
- 梯度消失: ReLU
关于 Hessian 矩阵:
- 函数在零梯度位置处的Hessian矩阵的特征值全部为正值时,我们有该函数的局部最小值
- 函数在零梯度位置处的Hessian矩阵的特征值全部为负值时,我们有该函数的局部最大值
- 函数在零梯度位置处的Hessian矩阵的特征值为负值和正值时,我们有该函数的一个鞍点
注:凸函数的 Hessian 矩阵的特征值不为负,但大多数深度学习问题不是凸函数。但是这个性质可以作为参考。