torch.optim

Wanderer001

已于 2023-11-02 20:10:33 修改

阅读量2.4k

点赞数 2

分类专栏： Pytorch 文章标签：计算机视觉深度学习机器学习

于 2022-04-30 12:45:13 首次发布

本文链接：https://blog.csdn.net/weixin_36670529/article/details/106651519

版权

本文详细介绍了PyTorch中torch.optim模块的使用，包括各种优化算法如Adadelta、Adagrad、Adam、AdamW等，并讨论了如何调整学习率，如LambdaLR、StepLR、MultiStepLR等。此外，还涵盖了优化器的参数组、状态管理和优化步骤的执行方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考 torch.optim - 云+社区 - 腾讯云

class torch.optim.Optimizer(params, defaults)[source]

add_param_group(param_group)[source]

load_state_dict(state_dict)[source]

state_dict()[source]

zero_grad()[source]

class torch.optim.Adadelta(params, lr=1.0, rho=0.9, eps=1e-06, weight_decay=0)[source]

class torch.optim.Adagrad(params, lr=0.01, lr_decay=0, weight_decay=0, initial_accumulator_value=0)[source]

step(closure)[source]

class torch.optim.Adam(params, lr=0.001, betas=(0.9, 0.999), eps=1e-08, weight_decay=0, amsgrad=False)[source]

step(closure)[source]

class torch.optim.AdamW(params, lr=0.001, betas=(0.9, 0.999), eps=1e-08, weight_decay=0.01, amsgrad=False)[source]

step(closure)[source]

class torch.optim.SparseAdam(params, lr=0.001, betas=(0.9, 0.999), eps=1e-08)[source]

step(closure)[source]

class torch.optim.Adamax(params, lr=0.002, betas=(0.9, 0.999), eps=1e-08, weight_decay=0)[source]

step(closure)[source]

class torch.optim.ASGD(params, lr=0.01, lambd=0.0001, alpha=0.75, t0=1000000.0, weight_decay=0)[source]

step(closure)[source]

class torch.optim.LBFGS(params, lr=1, max_iter=20, max_eval=None, tolerance_grad=1e-05, tolerance_change=1e-09, history_size=100, line_search_fn=None)[source]

step(closure)[source]

class torch.optim.RMSprop(params, lr=0.01, alpha=0.99, eps=1e-08, weight_decay=0, momentum=0, centered=False)[source]

step(closure)[source]

class torch.optim.Rprop(params, lr=0.01, etas=(0.5, 1.2), step_sizes=(1e-06, 50))[source]

step(closure)[source]

class torch.optim.SGD(params, lr=, momentum=0, dampening=0, weight_decay=0, nesterov=False)[source]

step(closure)[source]

如何调整学习率

class torch.optim.lr_scheduler.LambdaLR(optimizer, lr_lambda, last_epoch=-1)[source]

load_state_dict(state_dict)[source]

state_dict()[source]

class torch.optim.lr_scheduler.StepLR(optimizer, step_size, gamma=0.1, last_epoch=-1)[source]

class torch.optim.lr_scheduler.MultiStepLR(optimizer, milestones, gamma=0.1, last_epoch=-1)[source]

class torch.optim.lr_scheduler.ExponentialLR(optimizer, gamma, last_epoch=-1)[source]

class torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max, eta_min=0, last_epoch=-1)[source]

class torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='min', factor=0.1, patience=10, verbose=False, threshold=0.0001, threshold_mode='rel', cooldown=0, min_lr=0, eps=1e-08)[source]

class torch.optim.lr_scheduler.CyclicLR(optimizer, base_lr, max_lr, step_size_up=2000, step_size_down=None, mode='triangular', gamma=1.0, scale_fn=None, scale_mode='cycle', cycle_momentum=True, base_momentum=0.8, max_momentum=0.9, last_epoch=-1)[source]

get_lr()[source]

如何使用一个优化器

为了使用torch.optim，你必须构建一个优化对象，那将会保持现有的状态，并且基于计算的来更新参数。

构建它

为了构建一个优化器，你必须给定一个用来优化的参数的迭代器(所有应该是变量s)。然后，你能指定优化指定选项，例如学习率、权重衰减等。

注意：

If you need to move a model to GPU via .cuda(), please do so before constructing optimizers for it. Parameters of a model after .cuda() will be different objects with those before the call.In general, you should make sure that optimized parameters live in consistent locations when optimizers are constructed and used.

如果你通过.cuda()将一个模型移动到GPU，对它请在构建优化器之前这么做。.cuda()之后的模型参数与调用之前的参数是不同的对象。通常情况下，你应该确保使得优化在连续的位置上，当优化器构建和使用的时候。

例：

optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.9)
optimizer = optim.Adam([var1, var2], lr=0.0001)

预参数选项

Optimizers also support specifying per-parameter options. To do this, instead of passing an iterable of Variable s, pass in an iterable of dict s. Each of them will define a separate parameter group, and should contain a params key, containing a list of parameters belonging to it. Other keys should match the keyword arguments accepted by the optimizers, and will be used as optimization options for this group.

Optimizers也支持预参数选项。这么做，代替传递一个可迭代的变量s，传入一个可迭代的字典s。它们的每一个都会定一个分离的参数组，并且应该包含一个参数键，包含一个属于它的参数列表。其余键应该匹配优化器接受的关键字参数，并将作为这个组的优化选项。

注意：

注意你依然能够传递关键字参数。它们将会被用作默认值，在不重写它们的组中。当你仅仅想改变一个单一的选项时这很有用，同时保持参数组之间的所有其他一致。例如，当需要指定每层的学习速率时，这是非常有用的：

optim.SGD([
                {'params': model.base.parameters()},
                {'params': model.classifier.parameters(), 'lr': 1e-3}
            ], lr=1e-2, momentum=0.9)

This means that model.base’s parameters will use the default learning rate of 1e-2, model.classifier’s parameters will use a learning rate of 1e-3, and a momentum of 0.9 will be used for all parameters.

这意味着model.base的参数将会使用默认的学习率1e-2，model.classifier的参数将会适应1e-3，对所有参数动量都设置为0.9。

采取优化步骤

所有优化器实现一个step()方法用来更新参数。它的使用方法有两种：

optimizer.step()

这是大多数优化器都支持的简单版本。这个函数只调用一次，梯度计算用backward()来实现。

例：

for input, target in dataset:
    optimizer.zero_grad()
    output = model(input)
    loss = loss_fn(output, target)
    loss.backward()
    optimizer.step()
optimizer.step(closure)

一些优化算法例如联合提盒LBFGS需要重新评估函数多次，所以你必须传递一个闭包允许他们重新计算你的模型。闭包应该清除梯度，计算损失，并返回它。

例：

for input, target in dataset:
    def closure():
        optimizer.zero_grad()
        output = model(input)
        loss = loss_fn(output, target)
        loss.backward()
        return loss
    optimizer.step(closure)