torch.optim
reference
Optimizer
初始化
传入的参数分为被优化参数
和优化选项参数
,这些参数被接受后,会存在优化器内建的内建的self.param_groups
里,optimizer.param_groups
是长度为2的list
,optimizer.param_groups[0]是长度为6的dict
,结构如下:[{‘params’,‘lr’, ‘momentum’, ‘dampening’, ‘weight_decay’, ‘nesterov’},{……}]
被优化参数:一般是model.parameters()
,形式必须是Tensor
或者是dict
。当是dict
的时候,要保证有一个['params']
键。
优化选项参数:一般是学习率、衰减率等等。
import torch
import torchvision.models as models
model = models.resnet18()
optimizer = torch.optim.SGD(
model.parameters(),
lr=1e-2, momentum=0.9,
weight_decay=3e-4)
key =[i for i in optimizer.param_groups[0].keys()]
print(key)
# ['params', 'lr', 'momentum', 'dampening', 'weight_decay', 'nesterov']
zero_grad()
反向传播前用zero_grad()
来清空梯度,实现方法是遍历self.param_groups中全部参数,根据grad属性做清除。
def zero_grad(self):
#Clears the gradients of all optimized :class:`torch.Tensor`
for group in self.param_groups:
for p in group['params']:
if p.grad is not None:
p.grad.detach_()
p.grad.zero_()
step()
反向传播计算出梯度后,调用step()实现参数更新。在这里说一下loss.backward()
,应用在一个标量,如果要应用在矢量上,参见backward。
lr_scheduler
一般形式
scheduler = torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, float(args.epochs), eta_min=args.learning_rate_min)
for epoch in range(args.epochs):
scheduler.step() # 更新
lr = scheduler.get_lr()[0] #获取当前学习率
具体优化方法
optim库中实现的算法包括Adadelta、Adagrad、Adam、基于离散张量的Adam、基于 ∞ \infty ∞范式的Adam(Adamax)、Averaged SGD、L-BFGS、RMSProp、resilient BP、基于Nesterov的SGD算法。
对于带动量mu
以及WeightDecay
的SGD
算法流程如下:
- 首先计算