【chapter30】【PyTorch】[动量与学习率衰减】

最新推荐文章于 2024-06-13 21:05:59 发布

明朝百晓生

最新推荐文章于 2024-06-13 21:05:59 发布

阅读量1.2k

点赞数

分类专栏：人工智能文章标签：深度学习机器学习人工智能

4AM_明朝百晓生

本文链接：https://blog.csdn.net/chengxf2/article/details/130426257

版权

人工智能专栏收录该内容

102 篇文章 3 订阅

订阅专栏

前言：

SGD的不足：

①呈“之”字型，迂回前进，损失函数值在一些维度的改变得快（更新速度快），在一些维度改变得慢（速度慢）- 在高维空间更加普遍

②容易陷入局部极小值和鞍点

③对于凸优化而言，SGD不会收敛，只会在最优点附近跳来跳去

这里面主要讲解一下梯度更新的两个技巧，在训练的时候

应用比较多.

目录：

momentum
learn rate decay

一 momentum

正常的梯度更新公式:

$w^{t+1}=w^t-\alpha \bigtriangledown f(w^t)$

通过动量更新梯度公式:

$z^{t+1}=\beta z^t+ \bigtriangledown f(w^t)$

$w^{t+1}=w^t-\alpha z^{t+1}$

当前的梯度更新方向由当前的梯度和历史梯度叠加组成的。

Momentum算法的优点：

当某个参数在最近一段时间内的梯度方向不一致时，其真实的参数更新幅度变小；

相反，当在最近一段时间内的梯度方向都一致时，其真实的参数更新幅度变大，起到加速作用。

一般而言，在迭代初期，梯度方向都比较一致，动量法会起到加速作用，可以更快地到达最优点。在迭代后期，梯度方向会取决不一致，在收敛值附近震荡，动量法会起到减速作用，增加稳定性。从某种角度来说，当前梯度叠加上部分的上次梯度，一定程度上可以近似看作二阶梯度。

PyTorch 里面的API 函数

torch.optim.SGD(net.parameters(), lr=lr, momentum=0.9,weight_decay=wd)

对于ADM 这类优化器，是内部自带的，不需要手动设置。

二 learn rate decay

学习率衰减

现有问题：

1 学习率太小，长时间无法到达最优点

2 学习率太大，参数激烈震荡,无法收敛

默认的学习率是1e-3,1e-4

解决方案：

learn rate decay

每训练一些batch 后，学习率逐渐降低，如下图

如下图,随着训练的batch 增加，学习率降低，降低了

参数震荡，能够快速的朝一个方向收敛

PyTorch方案1

通过观测loss 是否减少，来动态调整学习率

torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode=‘min’, factor=0.1, patience=10, verbose=False, threshold=0.0001, threshold_mode=‘rel’, cooldown=0, min_lr=0, eps=1e-08)

PyTorch方案2：

如下图，每训练30次

$\alpha=0.1*\alpha$

参考：

课时59 动量与学习率衰减_哔哩哔哩_bilibili

https://www.cnblogs.com/shiliuxinya/p/12261966.html

pytorch 中ReduceLROnPlateau 的使用_pytorch的reducelronplateau_zx66zx的博客-CSDN博客

【pytorch 优化器】ReduceLROnPlateau详解_reducelronplateau参数_devil_son1234的博客-CSDN博客

明朝百晓生

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【chapter30】【PyTorch】[动量与学习率衰减】

梯度更新的两个小技巧 momentum ,learn rate decay
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。