简易版本,
pytorch文档上,不同层用不同学习率,可以用这个。
optim.SGD([
{
'params': model.base.parameters()},
{
'params': model.classifier.parameters(), 'lr': 1e-3}
], lr=1e-2, momentum=0.9)
然而,这个太简单了,比如,我有一个特殊的层,这里取名为Adaptive Sigmoid的层,形式:
import torch
import torch.nn as nn
class Adaptive_Sigmoid(nn.Module):
def __init__(self, alpha=1., beta=100.):
super(