Pytorch实现L1与L2正则化

最新推荐文章于 2024-07-25 14:35:42 发布

JR_Chan

最新推荐文章于 2024-07-25 14:35:42 发布

阅读量6.5k

点赞数 7

分类专栏： pytorch 文章标签： L2正则化 pytorch SGD L1正则化

本文链接：https://blog.csdn.net/JR_Chan/article/details/110658016

版权

pytorch 专栏收录该内容

3 篇文章 1 订阅

订阅专栏

关于Pytorch如何实现正则化在这篇博客《pytorch实现L2和L1正则化regularization的方法》其实已经给出了差不多正确的方法，但是这篇博客的代码在实现L2正则的时候是有一点小问题的。

首先看一下L2正则的公式：

$CL+\frac{\lambda}{2} \sum w_{i}^{2}$

其中 $C L$ 就是正常的损失（比如交叉熵损失）。实际上在Pytorch中，当你使用SGD的时候，其中的一个参数weight_decay其实就是L2正则的 $\lambda$ 系数，只不过Pytorch用了一种取巧的方法，实际的loss不会把L2损失计算进去，而是在梯度回传的时候通过在原先的梯度上面加上 $\lambda w_{i}$ 来实现一种等价的L2正则。如下面的源码所示：

for p in group['params`]:
	if p.grad is None:
		continue
	d_p = p.grad.data
	if weight_decay != 0:
		d_p.add_(weight_decay, p.data)

所以如果我们想显式地在损失中显示L2损失，就可以把SGD中的weight_decay置为0，然后再自己实现L2正则。还是参考前面提到的博客给出的实现方式，但是前面那篇博客在实现L2正则的时候用的L2范数即torch.norm(w, p=2)，而这个其实是有问题的，因为L2范数其实是 $\sqrt{\sum w_{i}^{2}}$ ，跟我们要的不是一个东西，所以我重写了一下：

def regularization_loss(self, weight_list_l1, weight_list_l2):
	reg_loss = 0
	loss1, loss2 = 0, 0
	for name, w in weight_list_l1:
		loss1 += torch.sum(torch.abs(w))
	for name, w in weight_list_l2:
		loss2 += torch.sum(torch.pow(w, 2))
	reg_loss = self.weight_decay_l1*loss1 + self.weight_decay_l2/2*loss2
	return reg_loss

需要说明的是我这里还实现了L1正则，可以实现对部分参数用L1正则，对另一部分用L2正则，然后对剩下的参数不用任何正则化（因为一般我们对BN层跟bias是不用正则化的，但是SGD的默认实现会对所有参数都施加L2正则化）。

JR_Chan

关注

7
点赞
踩
23

收藏

觉得还不错? 一键收藏
4
评论
Pytorch实现L1与L2正则化

关于Pytorch如何实现正则化在这篇博客《pytorch实现L2和L1正则化regularization的方法》其实已经给出了差不多正确的方法，但是这篇博客的代码在实现L2正则的时候是有一点小问题的。首先看一下L2正则的公式：Loss=CL+λ2∑wi2Loss = CL+\frac{\lambda}{2} \sum w_{i}^{2}Loss=CL+2λ∑wi2 其中CLCLCL就是正常的损失（比如交叉熵损失）。实际上在Pytorch中，当你使用SGD的时候，其中的一个参数weight
复制链接

扫一扫

专栏目录