【pytorch】torch.optim

最新推荐文章于 2024-02-06 16:36:07 发布

Hanawh

最新推荐文章于 2024-02-06 16:36:07 发布

阅读量219

点赞数

分类专栏： pytorch 文章标签： pytorch

本文链接：https://blog.csdn.net/qq_36530992/article/details/102730223

版权

本文详细介绍了PyTorch中的optimizer模块，包括初始化过程、zero_grad()和step()的使用，以及lr_scheduler的设置。内容涵盖优化器的参数组、参数更新规则，并列举了如Adadelta、Adam等多种优化算法的实现。此外，还讨论了正则化项在优化算法中的作用和计算方式。

摘要由CSDN通过智能技术生成

reference

Optimizer

初始化

传入的参数分为被优化参数和优化选项参数，这些参数被接受后，会存在优化器内建的内建的self.param_groups里，optimizer.param_groups是长度为2的list，optimizer.param_groups[0]是长度为6的dict，结构如下：[{‘params’,‘lr’, ‘momentum’, ‘dampening’, ‘weight_decay’, ‘nesterov’},{……}]
被优化参数：一般是model.parameters()，形式必须是Tensor或者是dict。当是dict的时候，要保证有一个['params']键。
优化选项参数：一般是学习率、衰减率等等。

import torch
import torchvision.models as models

model = models.resnet18()
optimizer = torch.optim.SGD(
      model.parameters(),
      lr=1e-2, momentum=0.9,
      weight_decay=3e-4)
key =[i for i in optimizer.param_groups[0].keys()]
print(key)
# ['params', 'lr', 'momentum', 'dampening', 'weight_decay', 'nesterov']

zero_grad()

反向传播前用zero_grad()来清空梯度，实现方法是遍历self.param_groups中全部参数，根据grad属性做清除。

def zero_grad(self):
        #Clears the gradients of all optimized :class:`torch.Tensor` 
        for group in self.param_groups:
            for p in group['params']:
                if p.grad is not None:
                    p.grad.detach_()
                    p.grad.zero_()

step()

反向传播计算出梯度后，调用step()实现参数更新。在这里说一下loss.backward()，应用在一个标量，如果要应用在矢量上，参见backward。

lr_scheduler

一般形式

scheduler = torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, float(args.epochs), eta_min=args.learning_rate_min)

for epoch in range(args.epochs):
	scheduler.step() # 更新
    lr = scheduler.get_lr()[0] #获取当前学习率