还是torch中的optim模块

最新推荐文章于 2024-02-06 16:36:07 发布

张学渣

最新推荐文章于 2024-02-06 16:36:07 发布

阅读量503

点赞数

分类专栏： Pytorch

本文链接：https://blog.csdn.net/qq_36302589/article/details/106378189

版权

Pytorch 专栏收录该内容

9 篇文章 2 订阅

订阅专栏

最近在看BoF中的一些trick，发现在代码实现中有考虑对于参数的weight_decay只对卷积层的权重来进行正则化约束，不对所有参数进行约束，话不多说上代码，以torchvision中定义的resnet18为例

import torchvision
import torch.optim as optim
model1 = torchvision.models.resnet18()
parmas = []
params_dict = dict(model1.named_parameters())
for k ,v in params_dict.items():
    if 'conv{}.weight'.format(1,2) in k:
        parmas.append({'params':v,'weight_decay':0.001})
    else:
        parmas.append({'params':v,'weight_decay':0.0})

optimizier = optim.SGD(parmas,lr=0.001,weight_decay=0.001)

for param_group in optimizier.param_groups:
    print(param_group['weight_decay'])

在这里我思考了一个问题，我们的参数字典在加入params时设置了'weight_decay'，但是定义optimizier的时候又定义了weight_decay，是否会覆盖掉我们之前定义的weight_decay呢，经过验证是不会的。遂又去看了optim的中文文档。

我们定义一个优化器的时候，以SGD为例，我们是一定要传入参数的，以傻子教程中定义 optimizier = optim.SGD(model1.parameters())，这个model1.parameters()在optim内部会自动被转换成一个字典，也就是{'params':model1.parameters()}，这个字典的key是固定的，'params','lr','weight_decay',' eps'等，但注意在最终的optimizier里是一个list的形式，我们可以通过optimizier.param_groups访问，每一个list的元素是一个字典，字典内就是定义的参数等信息，我们在optimizier = optim.SGD(parmas,lr=0.001,weight_decay=0.001)中定义的lr，weight_decay只对我们这个param_groups中的字典没有定义这些内容的时候生效，如果像我们这样

{'params':v,'weight_decay':0.001}

事先定义好，则其不会覆盖我们定义好的内容，只对未定义的字典进行相应key的初始化。

修改学习率，即可如下定义：

for param_group in optimizier.param_groups:
    param_group['lr']= lr

张学渣

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
还是torch中的optim模块

最近在看BoF中的一些trick，发现在代码实现中有考虑对于参数的weight_decay只对卷积层的权重来进行正则化约束，不对所有参数进行约束，话不多说上代码，以torchvision中定义的resnet18为例import torchvisionimport torch.optim as optimmodel1 = torchvision.models.resnet18()parmas = []params_dict = dict(model1.named_parameters())fo
复制链接

扫一扫

专栏目录