pytorch optimizer小记

最新推荐文章于 2023-11-10 18:06:08 发布

张学渣

最新推荐文章于 2023-11-10 18:06:08 发布

阅读量532

点赞数 2

分类专栏： Pytorch python

本文链接：https://blog.csdn.net/qq_36302589/article/details/105366290

版权

Pytorch 同时被 2 个专栏收录

9 篇文章 2 订阅

订阅专栏

python

6 篇文章 0 订阅

订阅专栏

1.最简单情况：

opt = optim.SGD(net.parameters(), lr=0.1, weight_decay=0.05, momentum=0.9)

查看一下optimizer参数具体情况：print(len(opt.param_groups))

会发现长度只有1，是一个只有一个元素的数组，因此，查看一下这个数组第一个元素的情况：

for i in opt.param_groups[0].keys():
    print(i)
'''
params
lr
momentum
dampening
weight_decay
nesterov
'''

这就是opt.param_groups[0]中参数，以键值对的形式存放的，若要更改学习率，可以直接：

opt.param_groups[0]['lr'] = 给定新值

2.既然opt.param_groups列表的长度只有1，那为什么还要用列表的形式存放呢？那是因为列表的长度可以不止1：

opt = optim.Adam([{'params':model1.parameters(),'lr':0.01},
                        {'params':model2.parameters(),'lr':0.1},
                        ])

一个优化器可以同时优化多个网络参数，如上所示，此时opt.param_groups列表的长度为2

3.同理，可以对同一个网络的不同层分别以不同学习率来优化

opt = optim.Adam([{'params':model.conv1.parameters(),'lr':0.001},
{'params':model.conv2.parameters(),'lr':0.002}
])

4.训练时还可以固定某些层不训练（参考：https://blog.csdn.net/qq_34914551/article/details/87699317）：

model = Net()
for name, p in model.named_parameters():
    if name.startswith('conv1'):
        p.requires_grad = False
  
import torch.optim as optim
optimizer = optim.Adam(filter(lambda x: x.requires_grad,model.parameters()),lr= 0.2)

张学渣

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
pytorch optimizer小记

1.最简单情况：opt = optim.SGD(net.parameters(), lr=0.1, weight_decay=0.05, momentum=0.9)查看一下optimizer参数具体情况：print(len(opt.param_groups))会发现长度只有1，是一个只有一个元素的数组，因此，查看一下这个数组第一个元素的情况：for i in opt.param...
复制链接

扫一扫