L1/L2正则化的作用
L1正则化作用到参数会产生更稀疏的解,既能使参数在训练过程中尽量靠近最优解的同时,一些参数为0。L1正则化的稀疏性质被广泛应用于特征选择,可从特征集合中选出具有代表的特征子集,以此简化机器学习问题。L1正则化的表达式如下:
f
(
θ
)
=
∣
∣
θ
∣
∣
1
=
∑
i
∣
θ
i
∣
f(\theta) = || \theta ||_{1} = \sum_{i} | \theta_{i} |
f(θ)=∣∣θ∣∣1=i∑∣θi∣
由于上述表达式存在绝对值形式,不能直接求导,但可以使用次梯度表示。L1正则化的次梯度如下:
∇
f
(
θ
)
=
s
i
g
n
(
θ
)
\nabla f(\theta) = sign(\theta)
∇f(θ)=sign(θ)
符号函数sign
用于获取输入参数
θ
\theta
θ逐个元素的正负号。
L2正则化通常又被称为权重衰减,通过添加一个正则化项使得参数在训练时更加接近原点,可防止模型过拟合。更抽象地来说,L2正则化会对减少目标函数无关的部分参数进行衰减,而能显著减少目标函数的部分参数则不受影响。L2正则化通常仅对卷积层的权重进行惩罚,不包括偏置项,对应表达式如下:
f
(
θ
)
=
∣
∣
θ
∣
∣
2
=
1
2
θ
T
θ
f(\theta) = || \theta ||_{2} = \frac{1}{2} \theta^{T} \theta
f(θ)=∣∣θ∣∣2=21θTθ
不难看出,上述表示式的梯度等于参数本身,既梯度如下:
∇
f
(
θ
)
=
θ
\nabla f(\theta) = \theta
∇f(θ)=θ
PyTorch添加L1/L2正则化
在使用PyTorch训练模型时,可使用两种方式添加L1/L2正则化:一种是添加正则化项到损失函数中,另一种是在backward()
之后,添加正则化项到参数变量的梯度中,然后再进行step()
。
方式一:添加到损失函数
def l1_regularization(model, l1_alpha):
l1_loss = []
for module in model.modules():
if type(module) is nn.BatchNorm2d:
l1_loss.append(torch.abs(module.weight).sum())
return l1_alpha * sum(l1_loss)
def l2_regularization(model, l2_alpha):
l2_loss = []
for module in model.modules():
if type(module) is nn.Conv2d:
l2_loss.append((module.weight ** 2).sum() / 2.0)
return l2_alpha * sum(l2_loss)
方式二:添加到参数梯度
def l1_regularization(model, l1_alpha):
for module in model.modules():
if type(module) is nn.BatchNorm2d:
module.weight.grad.data.add_(l1_alpha * torch.sign(module.weight.data))
def l2_regularization(model, l2_alpha):
for module in model.modules():
if type(module) is nn.Conv2d:
module.weight.grad.data.add_(l2_alpha * module.weight.data)