2022吴恩达机器学习(Deep learning)课程对应笔记13
学习率
更新时间:2023/03/20
概述
学习率在机器学习中扮演着很重要的角色,正如上节讲到参数 w w w的更新方式 w = w − α ∂ ∂ w J ( w , b ) w=w-\alpha\frac{\partial}{\partial w}J(w,b) w=w−α∂w∂J(w,b)中所示,学习率也与 w w w的更新有关。
- 如果学习率 α \alpha α选择得太小,那么迭代收敛的速度就会很慢,同时如果迭代到局部最小值点的时候,很有可能会陷入到局部最小值的附近。
- 如果学习率 α \alpha α选择得太大,那么很有可能在更新 w w w时,错过最佳的 w w w值使得 J ( w ) J(w) J(w)错过最小值点。也有可能导致 w w w在局部最小值点附近振荡,不能收敛甚至发散。
- 具体的案例如下图。
当
w
=
5
w=5
w=5时,如下图,恰好是一个局部最小值点,现在的梯度是也就是斜率为0,即
∂
∂
w
J
(
w
)
=
0
\frac{\partial}{\partial w}J(w)=0
∂w∂J(w)=0。此时就意味着模型已经收敛,不会再更新参数
w
w
w的值了。
下面是最终的结论:用一个固定的学习率可以使得模型收敛到局部最小值。
- 越接近局部最小值,梯度会变得越来越小
- 越接近局部最小值,更新步骤也会变地越来越小