PyTorch训练模型添加L1/L2正则化的两种实现方式

L1/L2正则化的作用

L1正则化作用到参数会产生更稀疏的解,既能使参数在训练过程中尽量靠近最优解的同时,一些参数为0。L1正则化的稀疏性质被广泛应用于特征选择,可从特征集合中选出具有代表的特征子集,以此简化机器学习问题。L1正则化的表达式如下:
f ( θ ) = ∣ ∣ θ ∣ ∣ 1 = ∑ i ∣ θ i ∣ f(\theta) = || \theta ||_{1} = \sum_{i} | \theta_{i} | f(θ)=θ1=iθi
由于上述表达式存在绝对值形式,不能直接求导,但可以使用次梯度表示。L1正则化的次梯度如下:
∇ f ( θ ) = s i g n ( θ ) \nabla f(\theta) = sign(\theta) f(θ)=sign(θ)
符号函数sign用于获取输入参数 θ \theta θ逐个元素的正负号。
L2正则化通常又被称为权重衰减,通过添加一个正则化项使得参数在训练时更加接近原点,可防止模型过拟合。更抽象地来说,L2正则化会对减少目标函数无关的部分参数进行衰减,而能显著减少目标函数的部分参数则不受影响。L2正则化通常仅对卷积层的权重进行惩罚,不包括偏置项,对应表达式如下:
f ( θ ) = ∣ ∣ θ ∣ ∣ 2 = 1 2 θ T θ f(\theta) = || \theta ||_{2} = \frac{1}{2} \theta^{T} \theta f(θ)=θ2=21θTθ
不难看出,上述表示式的梯度等于参数本身,既梯度如下:
∇ f ( θ ) = θ \nabla f(\theta) = \theta f(θ)=θ

PyTorch添加L1/L2正则化

在使用PyTorch训练模型时,可使用两种方式添加L1/L2正则化:一种是添加正则化项到损失函数中,另一种是在backward()之后,添加正则化项到参数变量的梯度中,然后再进行step()

方式一:添加到损失函数

def l1_regularization(model, l1_alpha):
    l1_loss = []
    for module in model.modules():
        if type(module) is nn.BatchNorm2d:
            l1_loss.append(torch.abs(module.weight).sum())
    return l1_alpha * sum(l1_loss)

def l2_regularization(model, l2_alpha):
    l2_loss = []
    for module in model.modules():
        if type(module) is nn.Conv2d:
            l2_loss.append((module.weight ** 2).sum() / 2.0)
    return l2_alpha * sum(l2_loss)

方式二:添加到参数梯度

def l1_regularization(model, l1_alpha):
    for module in model.modules():
        if type(module) is nn.BatchNorm2d:
            module.weight.grad.data.add_(l1_alpha * torch.sign(module.weight.data))

def l2_regularization(model, l2_alpha):
    for module in model.modules():
        if type(module) is nn.Conv2d:
            module.weight.grad.data.add_(l2_alpha * module.weight.data)
要使用PyTorch实现L1L2正则化,可以通过在损失函数中添加相应的正则化项来实现。下面是一个简单的示例: ```python import torch import torch.nn as nn import torch.optim as optim # 定义模型 class MyModel(nn.Module): def __init__(self): super(MyModel, self).__init__() self.linear = nn.Linear(10, 1) def forward(self, x): return self.linear(x) model = MyModel() # 定义损失函数和优化器 criterion = nn.MSELoss() optimizer = optim.SGD(model.parameters(), lr=0.01) # 定义正则化权重 l1_lambda = 0.01 l2_lambda = 0.01 # 训练循环 for epoch in range(num_epochs): for inputs, targets in data_loader: optimizer.zero_grad() outputs = model(inputs) loss = criterion(outputs, targets) # 添加L1正则化 l1_reg = torch.tensor(0.) for param in model.parameters(): l1_reg += torch.norm(param, 1) loss += l1_lambda * l1_reg # 添加L2正则化 l2_reg = torch.tensor(0.) for param in model.parameters(): l2_reg += torch.norm(param, 2) loss += l2_lambda * l2_reg loss.backward() optimizer.step() ``` 在上述代码中,我们定义了一个`MyModel`类来表示我们的模型。然后,我们使用`nn.MSELoss()`作为损失函数,并使用`optim.SGD`作为优化器。在训练循环中,我们通过遍历模型的参数并计算其L1L2范数来计算正则化项。然后将正则化项加到损失函数中,通过调整`l1_lambda`和`l2_lambda`参数来控制正则化的强度。最后,我们进行反向传播和参数更新以完成训练。 请注意,这只是一个简单的示例,实际应用中可能还会有其他细节需要考虑,如权重衰减(weight decay)等。
评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值