torch.optim
torch.optim是一个实现了各种优化算法的库。大部分常用的方法得到支持,并且接口具备足够的通用性,使得未来能够集成更加复杂的方法。
- 构建
为了构建一个Optimizer,需要给它一个包含了需要优化的参数(必须都是Variable对象)的iterable。然后,你可以设置optimizer的参数选项,比如学习率,权重衰减,等等。
NOTE:如果需要将model迁移至GPU,需要在构建Optimizer之前调用.cuda()函数。这是因为,调用.cuda()函数前后,model参数类型会不同。一般地,在利用Optimizer进行参数优化时,应该保证参数的存储位置是一致的。
optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.9)optimizer = optim.Adam([var1, var2], lr=0.0001)
1.1 Optimizer 参数:
(1) params(iterable): 需要优化的网络参数
(2) lr (float, optional):学习率
(3) betas (Tuple[float, float], optional) – coefficients used for computing running averages of gradient and its square (default: (0.9, 0.999))
(4) eps (float, optional) – term added to the denominator to improve numerical stability (default: 1e-8)
(5) weight_decay (float, optional) – weight decay (L2 penalty) (default: 0);
(6) amsgrad (boolean, optional) – whether to use the AMSGrad variant of this algorithm from the paper On the Convergence of Adam and Beyond (default: False)。
1.2 Optimizer属性:
(1) optimizer.defaults: 字典,存放这个优化器的一些初始参数,包括 'lr'&#x