Pytorch —— 优化器Optimizer（二）

最新推荐文章于 2023-02-28 19:16:42 发布

然后就去远行吧

最新推荐文章于 2023-02-28 19:16:42 发布

阅读量478

点赞数

分类专栏： pytorch

本文链接：https://blog.csdn.net/qq_37388085/article/details/106752503

版权

pytorch 专栏收录该内容

33 篇文章 42 订阅

订阅专栏

1、learning rate学习率

梯度下降： $w_{i+1}=w_{i}-LR*g\left(w_{i}\right)$ 梯度是沿着负梯度方向进行更新的，学习率控制更新的步伐；

2、momentum动量

Momentum（动量，冲量）：结合当前梯度与上一次更新信息，用于当前更新；

学习动量法之前，先来学习指数加权平均： $\mathrm{v}_{t}=\beta * v_{t-1}+(1-\beta) * \theta_{t}$ Pytorch中的梯度更新公式为： $\boldsymbol{v}_{\boldsymbol{i}}=\boldsymbol{m} * \boldsymbol{v}_{\boldsymbol{i}-1}+\boldsymbol{g}\left(\boldsymbol{w}_{\boldsymbol{i}}\right)$ $w_{i+1}=w_{i}-l r * v_{i}$ 公式中的 $w_{i+1}$ 为第i+1次更新的参数， $l r$ 为学习率， $v_i$ 为更新量， $m$ 为momentum系数， $g(w_i)$ 为 $w_i$ 的梯度。

3、torch.optim.SGD

主要参数：

params：管理的参数组，参数组是一个list，list中的每一个元素是一个dict；
lr：学习率；
momentum：动量系数，贝塔；
weight_decay：L2正则化系数；
nesterov：布尔变量，是否采用NAG梯度下降方法，默认为False；

optim.SGD(params,lr=<object object>,momentum=0,dampening=0,weight_decay=0,nesterov=False)

4、Pytorh的十种优化器

optim.SGD：随机梯度下降法；
optim.Adagrad：自适应学习率梯度下降法；
optim.RMSprop：Adagrad的改进
optim.Adadelta：Adagrad的改进；
optim.Adam：RMSprop结合Momentum；
optim.Adamax：Adam增加学习率上限；
optim.SparseAdam：稀疏版的Adam；
optim.ASGD：随机平均梯度下降；
optim.Rprop：弹性反向传播；
10.optim.LBFGS ：BFGS的改进；

然后就去远行吧

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Pytorch —— 优化器Optimizer（二）

1、learning rate学习率梯度下降：wi+1=wi−LR∗g(wi)w_{i+1}=w_{i}-LR*g\left(w_{i}\right)wi+1=wi−LR∗g(wi)梯度是沿着负梯度方向进行更新的，学习率控制更新的步伐；2、momentum动量Momentum（动量，冲量）：结合当前梯度与上一次更新信息，用于当前更新；学习动量法之前，先来学习指数加权平均：vt=β∗vt−1+(1−β)∗θt\mathrm{v}_{t}=\beta * v_{t-1}+(1-\beta) * \
复制链接

扫一扫