1. 随机梯度下降
每次使用一个样本点更新参数,使sgd会跳到新的和潜在更好的局部最优解,但会使得收敛到局部最优解的过程更加复杂。
2. 批梯度下降
会获得全局最优解,但在更新每个参数的时候需要遍历所有的数据,计算量很大,参数更新很慢。
3. 小批量梯度下降
结合了sgd和batch gd的优点,每次更新时使用部分n个样本,减少了参数更新的次数,可以达到更加稳定的收敛结果。(DL中常用)
以上3种方法有两个致命问题:
1. 如何对模型选择合适的学习率;
2. 如何对参数选择合适的学习率。
4. 动量法、Adam优化方法
一开始参数刚刚开始学习,此时参数与最优解隔的比较远,需要保持一个较大的学习率;但学到后面的时候,参数与最优解已比较接近,若仍保持最初的学习率,容易越过最优点,在其附近震荡。
对于更新频繁的参数,学习率设置小一点;更新缓慢的参数,学习率设置大一点。