学习率衰减

最新推荐文章于 2024-10-07 06:30:00 发布

LiuHDme

最新推荐文章于 2024-10-07 06:30:00 发布

阅读量2.3k

点赞数

分类专栏：优化算法文章标签：算法机器学习深度学习人工智能神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/LiuHDme/article/details/104744858

版权

优化算法专栏收录该内容

5 篇文章 5 订阅

订阅专栏

学习率衰减（learning rate decay）同样也可以让我们的学习算法运行地更快，它能保证损失函数最终摆动时处在离最优值很近的范围内。

为什么需要学习率衰减

前面我们讲过，mini-batch 梯度下降算法可以提高更新权重的速度，让我们及时看到损失函数的情况，但是每个损失函数并不会一直下降，而是在保证整体趋势减小的情况下略微波动，如果用一个等高线图来表示就是这样的：

上图的中心点为最优值点，我们可以看到损失函数渐渐接近最优值，但最后却在最优值附近摆动，这是因为学习率的大小一直不变，如果我们可以让学习率随着损失函数接近最优值或是随着迭代次数的增加而慢慢减小的话，就可以得到下图中的绿线：

可以看到，随着损失函数接近最优值，摆动的幅度也在减小，从而保证最后损失函数在离最优值更近的范围内摆动。

如何实现

我们的目标是让学习率 $\alpha$ 随着迭代次数的增加而逐渐减小。先明确迭代这个概念，所谓迭代就是让训练集中的所有数据都输入一次网络，这就是一次迭代。如果训练集被分成了许多个 mini batches，那一次迭代就是所有 mini batches 中的数据都依次输入进网络并更新了权重。因此我们可以这样定义学习率：

$\alpha = \cfrac{1}{1 + decayRate · epochNum} · \alpha_0$

其中，

decayRate 是衰减率，衰减率越大，学习率就减小得越快
epochNum 是迭代次数
$\alpha_0$ 是初始学习率，初始学习率可以设置得大一些，这样可以保证算法一开始的学习速度不会太慢

从这个式子可以明显看出，随着迭代次数 epochNum 的增大， $\alpha$ 就会变小。

decayRate 和 $\alpha_0$ 都是超参数，我们需要在实践中调整这些值以得到满意的结果。

当然还有一些别的方法实现学习率衰减，比如：

$\alpha = decayRate^{epochNum} · \alpha_0$

$\alpha = \cfrac{k}{\sqrt{epochNum}} · \alpha_0$

还有人会选择手动调整 $\alpha$ 的值，比如每个几小时或几天就去手工调整学习率的值，这种方法也是可行的。

以上就是对学习率衰减的简要介绍，其基本思想就是让学习率随着迭代次数的增加而减小，以保证损失函数在离最优值比较近的区域内摆动。

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。