pytorch 显示网络结构，显示优化器的设置代码，

最新推荐文章于 2024-07-27 20:21:33 发布

贝猫说python

最新推荐文章于 2024-07-27 20:21:33 发布

阅读量406

点赞数 1

分类专栏： pytorch

pytorch 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

最近注意到在一些caffe模型中，偏置项的学习率通常设置为普通层的两倍。具体原因可以参考(https://datascience.stackexchange.com/questions/23549/why-is-the-learning-rate-for-the-bias-usually-twice-as-large-as-the-the-lr-for-t)，貌似没有文章提到这个。
Pytorch中也提供了对不同层设置不同学习率以及衰减因子的方法。
主要方法是传递一个dict给optimizer，而不是list。

下面以restnet18进行说明：
首先加载resnet18 模型，并打印其参数设置：

import torch, torchvision
model = torchvision.models.resnet18()
paras = dict(model.named_parameters())

for k, v in paras.items():
print(k.ljust(30), str(v.shape).ljust(30), ‘bias:’, v.requires_grad)

输出为：

设置优化器参数，并打印

paras_new = []
for k, v in paras.items():
     if 'bias' in k:
        paras_new += [{'params': [v], 'lr': 0.02, 'weight_decay': 0}]
     else:
        paras_new += [{'params': [v], 'lr': 0.01, 'weight_decay': 0.00004}]
optimizer = torch.optim.SGD(paras_new, momentum=0.9)

for p in optimizer.param_groups:
outputs = ‘’
for k, v in p.items():
if k is ‘params’:
outputs += (k + ': ’ + str(v[0].shape).ljust(30) + ’ ')
else:
outputs += (k + ': ’ + str(v).ljust(10) + ’ ')
print(outputs)