李宏毅-2021春-机器学习/深度学习学习笔记-Deep Learning【3】

最新推荐文章于 2022-10-14 11:24:55 发布

海底捞在逃肥牛丶

最新推荐文章于 2022-10-14 11:24:55 发布

阅读量134

点赞数

分类专栏：李宏毅深度学习机器学习笔记文章标签：深度学习机器学习 optimization

本文链接：https://blog.csdn.net/qq_41559638/article/details/117811889

版权

李宏毅深度学习机器学习笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

三、Tips for Training: Adaptive Learning Rate

1、训练收敛了吗？

可能会出现这样一种情况，明明训练的损失已经看上去收敛了，但是梯度还是在来回的波动，不用担心，可能其只是卡在了局部最优解的山谷里反复横跳而已；

2、如果不是局部最优解的话，为什么训练损失卡住了呢？

可能是你的学习率（Learning Rate）调整的不好。太大，会来回横跳，太小，步伐会太慢，可能永远到不了终点；

3、自适应你的学习率

（1）目标：如果在某一个方向上梯度很大，我们希望学习率会小一点，反之，如果某个方向上梯度很小，我们会希望学习率会增大一些；

（2）原来的参数更新方法： $\theta^{t+1}_i \gets \theta^t_i-\eta g^t_i$ ；

自适应的参数更新方法： $\theta^{t+1}_i \gets \theta^t_i-\frac{\eta}{\sigma^t_i} g^t_i$ ；

（3） $\sigma$ 的计算方式 ① ：Root Mean Square应用于Adagrad（不常用）

$\qquad\theta^1_i \gets \theta^0_i-\frac{\eta}{\sigma^0_i} g^0_i \qquad \sigma^0_i=\sqrt{(g^0_i)^2}=|g^0_i| \\ \qquad \theta^2_i \gets \theta^1_i-\frac{\eta}{\sigma^1_i} g^1_i \qquad \sigma^1_i=\sqrt{\frac 12[(g^0_i)^2+(g^1_i)^2]} \\ \qquad \theta^3_i \gets \theta^2_i-\frac{\eta}{\sigma^2_i} g^2_i \qquad \sigma^2_i=\sqrt{\frac 13[(g^0_i)^2+(g^1_i)^2+(g^2_i)^2]} \\ \qquad\qquad\qquad\qquad\qquad \vdots \\ \qquad \theta^{t+1}_i \gets \theta^t_i-\frac{\eta}{\sigma^t_i} g^t_i \qquad \sigma^t_i=\sqrt{\frac {1}{t+1}\sum_{i=0}^t (g^t_i)^2}$

（4） $\sigma$ 的计算方式 ② ：RMS Prop（其中 $\alpha$ 是一个超参数， $0<\alpha<1$ ）
$\qquad \theta^1_i \gets \theta^0_i-\frac{\eta}{\sigma^0_i} g^0_i \qquad \sigma^0_i=\sqrt{(g^0_i)^2}=|g^0_i| \\ \qquad \theta^2_i \gets \theta^1_i-\frac{\eta}{\sigma^1_i} g^1_i \qquad \sigma^1_i=\sqrt{\alpha(\sigma^0_i)^2+(1-\alpha)(g^1_i)^2} \\ \qquad \theta^3_i \gets \theta^2_i-\frac{\eta}{\sigma^2_i} g^2_i \qquad \sigma^2_i=\sqrt{\alpha(\sigma^1_i)^2+(1-\alpha)(g^2_i)^2} \\ \qquad\qquad\qquad\qquad\qquad \vdots \\ \qquad \theta^{t+1}_i \gets \theta^t_i-\frac{\eta}{\sigma^t_i} g^t_i \qquad \sigma^t_i=\sqrt{\alpha(\sigma^{t-1}_i)^2+(1-\alpha)(g^t_i)^2}$

（5）最常用的Optimization策略：Adma^[1]=RMS Prop + Momentum！
$\theta^{t+1}_i \gets \theta^t_i-\frac {\eta^t}{\sigma^t_i}\pmb{m^t_i}$
（6）学习率调整策略：这里我们让 $\eta$ 也随着时间而改变而非定值

法一（Learning Rate Decay）：让 $\eta^t$ 随着时间变小到0；
法二（Warm up）：让 $\eta^t$ 先从0变大后到一个顶峰再随着时间减小到0；

[1] Kingma D P, Ba J. Adam: A method for stochastic optimization[J]. arXiv preprint arXiv:1412.6980, 2014.

海底捞在逃肥牛丶

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
李宏毅-2021春-机器学习/深度学习学习笔记-Deep Learning【3】

三、Tips for Training: Adaptive Learning Rate1、训练收敛了吗？可能会出现这样一种情况，明明训练的损失已经看上去收敛了，但是梯度还是在来回的波动，不用担心，可能其只是卡在了局部最优解的山谷里反复横跳而已；2、如果不是局部最优解的话，为什么训练损失卡住了呢？可能是你的学习率（Learning Rate）调整的不好。太大，会来回横跳，太小，步伐会太慢，可能永远到不了终点；3、自适应你的学习率（1）目标：如果在某一个方向上梯度很大，我们希望学习率会小一点
复制链接

扫一扫