一、局部最小值与鞍点
1.局部最小值、局部最大值与鞍点
2.如何判断这三种情况?
根据泰勒展开可以得到右上角的公式,此时运用线性代数的知识求海塞矩阵的特征值进行判断即可。
3.碰到鞍点的解决方案
根据海塞矩阵的负特征值来更新梯度。
4.局部最小值其实并没有想象中那么多
达到梯度为0的地方,并不意味着没路继续往低处走。
从低维看是局部最小值,并不意味着在高维也是局部最小值。
梯度很小的时候可以是以下几种情况。
二、批次与动量
1.批次的优化
2.小批次和大批次的差异
3.动量的引入
更新梯度进一步考虑了上一步更新梯度的惯性。
4.总结
三、自动调整学习速率
1.不同的参数需要不同的学习率
如果用同一个学习率,会导致训练十分困难即使还没到局部最小值。
2.采用不同学习率的策略
分母:
(1)均方根
(2)RMSProp
![]()
分子 :
(3)学习率调度
3.总结
优化的三个调整方向如下式子。
四、分类问题及其损失函数
1.回归改为分类存在的问题
类别相似性存在问题。
使用ont-hot进行修复。
2.softmax
简单来说,softmax用来给onthot编码进行0-1区间化。
3.分类问题需要选交叉熵作为损失函数
用MSE会出现stuck的现象。
五、批次标准化
1.缩放的引入
2.为什么要批次标准化?
3.会出现ICS问题?