一、用代码实现L1和L2regularization
weight_decay指定的权重衰减会对网络中所有参数(包括权值W和偏置b)进行操作,如果对b进行L2正则化可能会导致严重欠拟合,所以,一般只需对权值进行正则即可。[不确定???]
PS:PyTorch中的regularization在optimizer中实现,通过设定其中的weight_decay参数的值控制正则化的权重大小(即权值衰减率)(默认为L2正则化的权重)。
(1)L1 regularization
L1正则化让权重向量在优化过程中变得稀疏。
PyTorch中的optimizer只能实现L2正则化,L1正则化需要手动实现:
regularization_loss = 0
for param in model.parameters():
regularization_loss += torch.sum(abs(param))
classify_loss = criterion(pred,target)
loss = classify_loss + lamda * regularization_loss
optimizer.zero_grad()
loss.backward()
optimizer.step()
(2)L2 regularization
权重衰减系数在初步尝试时可以使用1e-4或1e-3。
在PyTorch中某些optimizer优化器的参数weight_decay就是L2正则项,默认值为0。
optimizer = torch.optim.SGD(model.parameters(), lr=0.01, weight_decay=0.001)
or
optimizer = torch.optim.Adam([{'params': model.base.parameters(), 'lr':1e-3},
{'params':model.classifier.parameters(),'lr':1e-4}],
lr=1e-2, momentum=0.9, weight_decay=1e-5)
Reference:
https://blog.csdn.net/qq_36589234/article/details/89298999