【pytorch】torch.optim


reference

Optimizer

初始化

传入的参数分为被优化参数优化选项参数,这些参数被接受后,会存在优化器内建的内建的self.param_groups里,optimizer.param_groups是长度为2的list,optimizer.param_groups[0]是长度为6的dict,结构如下:[{‘params’,‘lr’, ‘momentum’, ‘dampening’, ‘weight_decay’, ‘nesterov’},{……}]
被优化参数:一般是model.parameters(),形式必须是Tensor或者是dict。当是dict的时候,要保证有一个['params']键。
优化选项参数:一般是学习率、衰减率等等。

import torch
import torchvision.models as models

model = models.resnet18()
optimizer = torch.optim.SGD(
      model.parameters(),
      lr=1e-2, momentum=0.9,
      weight_decay=3e-4)
key =[i for i in optimizer.param_groups[0].keys()]
print(key)
# ['params', 'lr', 'momentum', 'dampening', 'weight_decay', 'nesterov']

zero_grad()

反向传播前用zero_grad()来清空梯度,实现方法是遍历self.param_groups中全部参数,根据grad属性做清除。

def zero_grad(self):
        #Clears the gradients of all optimized :class:`torch.Tensor` 
        for group in self.param_groups:
            for p in group['params']:
                if p.grad is not None:
                    p.grad.detach_()
                    p.grad.zero_()

step()

反向传播计算出梯度后,调用step()实现参数更新。在这里说一下loss.backward(),应用在一个标量,如果要应用在矢量上,参见backward

lr_scheduler

一般形式

scheduler = torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, float(args.epochs), eta_min=args.learning_rate_min)

for epoch in range(args.epochs):
	scheduler.step() # 更新
    lr = scheduler.get_lr()[0] #获取当前学习率

具体优化方法

optim库中实现的算法包括Adadelta、Adagrad、Adam、基于离散张量的Adam、基于 ∞ \infty 范式的Adam(Adamax)、Averaged SGD、L-BFGS、RMSProp、resilient BP、基于Nesterov的SGD算法。

对于带动量mu以及WeightDecaySGD算法流程如下:

  1. 首先计算
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值