Pytorch实现L1与L2正则化

 关于Pytorch如何实现正则化在这篇博客《pytorch实现L2和L1正则化regularization的方法》其实已经给出了差不多正确的方法,但是这篇博客的代码在实现L2正则的时候是有一点小问题的。

 首先看一下L2正则的公式:

L o s s = C L + λ 2 ∑ w i 2 Loss = CL+\frac{\lambda}{2} \sum w_{i}^{2} Loss=CL+2λwi2

 其中 C L CL CL就是正常的损失(比如交叉熵损失)。实际上在Pytorch中,当你使用SGD的时候,其中的一个参数weight_decay其实就是L2正则的 λ \lambda λ系数,只不过Pytorch用了一种取巧的方法,实际的loss不会把L2损失计算进去,而是在梯度回传的时候通过在原先的梯度上面加上 λ w i \lambda w_{i} λwi来实现一种等价的L2正则。如下面的源码所示:

for p in group['params`]:
	if p.grad is None:
		continue
	d_p = p.grad.data
	if weight_decay != 0:
		d_p.add_(weight_decay, p.data)

 所以如果我们想显式地在损失中显示L2损失,就可以把SGD中的weight_decay置为0,然后再自己实现L2正则。还是参考前面提到的博客给出的实现方式,但是前面那篇博客在实现L2正则的时候用的L2范数即torch.norm(w, p=2),而这个其实是有问题的,因为L2范数其实是 ∑ w i 2 \sqrt{\sum w_{i}^{2}} wi2 ,跟我们要的不是一个东西,所以我重写了一下:

def regularization_loss(self, weight_list_l1, weight_list_l2):
	reg_loss = 0
	loss1, loss2 = 0, 0
	for name, w in weight_list_l1:
		loss1 += torch.sum(torch.abs(w))
	for name, w in weight_list_l2:
		loss2 += torch.sum(torch.pow(w, 2))
	reg_loss = self.weight_decay_l1*loss1 + self.weight_decay_l2/2*loss2
	return reg_loss

 需要说明的是我这里还实现了L1正则,可以实现对部分参数用L1正则,对另一部分用L2正则,然后对剩下的参数不用任何正则化(因为一般我们对BN层跟bias是不用正则化的,但是SGD的默认实现会对所有参数都施加L2正则化)。

  • 7
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
要使用PyTorch实现L1L2正则化,可以通过在损失函数中添加相应的正则化项来实现。下面是一个简单的示例: ```python import torch import torch.nn as nn import torch.optim as optim # 定义模型 class MyModel(nn.Module): def __init__(self): super(MyModel, self).__init__() self.linear = nn.Linear(10, 1) def forward(self, x): return self.linear(x) model = MyModel() # 定义损失函数和优化器 criterion = nn.MSELoss() optimizer = optim.SGD(model.parameters(), lr=0.01) # 定义正则化权重 l1_lambda = 0.01 l2_lambda = 0.01 # 训练循环 for epoch in range(num_epochs): for inputs, targets in data_loader: optimizer.zero_grad() outputs = model(inputs) loss = criterion(outputs, targets) # 添加L1正则化 l1_reg = torch.tensor(0.) for param in model.parameters(): l1_reg += torch.norm(param, 1) loss += l1_lambda * l1_reg # 添加L2正则化 l2_reg = torch.tensor(0.) for param in model.parameters(): l2_reg += torch.norm(param, 2) loss += l2_lambda * l2_reg loss.backward() optimizer.step() ``` 在上述代码中,我们定义了一个`MyModel`类来表示我们的模型。然后,我们使用`nn.MSELoss()`作为损失函数,并使用`optim.SGD`作为优化器。在训练循环中,我们通过遍历模型的参数并计算其L1L2范数来计算正则化项。然后将正则化项加到损失函数中,通过调整`l1_lambda`和`l2_lambda`参数来控制正则化的强度。最后,我们进行反向传播和参数更新以完成训练。 请注意,这只是一个简单的示例,实际应用中可能还会有其他细节需要考虑,如权重衰减(weight decay)等。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值