资料来源:Datawhale (linklearner.com)
海塞矩阵与鞍点:在高维空间看到更多优化潜力
多数的时候,我们训练到一个梯度很小的地方,参数不再更新,往往只是遇到了鞍点。
二阶泰勒近似:
导数为0():可能:是极小值点(海塞矩阵正定),极大值点(海塞矩阵负定),鞍点(海塞矩阵特征值有正有负:有些方向上升,有些方向下降)
问题:如何看待海塞矩阵半正定和半负定的情况?
三阶泰勒近似?
优化
epoch、batch、shuffle
批量梯度下降法(BGD):batch=N_full,计算量大,更新稳定,更准确
随即梯度下降法(SGD):batch=1,引入随机噪声,在非凸优化中更容易逃离局部最小值
并行计算导致计算时间与批量大小的关系非线性
小批量梯度下降
动量
自适应学习率