L1 惩罚(Lasso回归)
L1 惩罚,也称为 Lasso(最小绝对值收缩和选择算子),是一种正则化方法,用于防止模型过拟合。它通过在损失函数中添加参数的绝对值之和来实现。具体来说,Lasso 回归的损失函数形式为:
L
o
s
s
L
a
s
s
o
=
∑
i
=
1
n
(
y
i
−
y
i
2
)
+
λ
∑
j
=
1
p
∣
w
j
∣
LossLasso=\sum_{i=1}^{n}(y_i−y_i^2)+λ\sum_{j=1}^p∣w_j|
LossLasso=i=1∑n(yi−yi2)+λj=1∑p∣wj∣
其中:
- ∑ i = 1 n ( y i − y i 2 ) \sum_{i=1}^{n}(y_i−y_i^2) ∑i=1n(yi−yi2)是普通的均方误差损失。
- λ 是正则化参数,控制惩罚的强度。
- ∑ j = 1 p ∣ w j ∣ \sum_{j=1}^p∣w_j| ∑j=1p∣wj∣是参数的绝对值之和,即 L1 范数。
L1 惩罚的特点是它可以使一些参数的值变为零,从而实现特征选择。这意味着在最终的模型中,只有部分特征会被保留,模型变得更加稀疏和易于解释。
L2 惩罚(Ridge回归)
L2 惩罚,也称为 Ridge 回归,是另一种正则化方法。它通过在损失函数中添加参数的平方和来实现。具体来说,Ridge 回归的损失函数形式为:
L
o
s
s
R
i
d
g
e
=
∑
i
=
1
n
(
y
i
−
y
^
i
2
)
+
λ
∑
j
=
1
p
w
j
2
LossRidge=\sum_{i=1}^n(y_i-\hat{y}_i^2)+λ\sum_{j=1}^pw_j^2
LossRidge=i=1∑n(yi−y^i2)+λj=1∑pwj2
其中:
- ∑ i = 1 n ( y i − y ^ i 2 ) \sum_{i=1}^n(y_i-\hat{y}_i^2) ∑i=1n(yi−y^i2)是普通的均方误差损失。
- λ 是正则化参数,控制惩罚的强度。
- λ ∑ j = 1 p w j 2 λ\sum_{j=1}^pw_j^2 λ∑j=1pwj2是参数的平方和,即 L2 范数。
L2 惩罚的特点是它会使参数的值变得较小,但不会使它们变为零。这意味着所有特征都会被保留,但它们的影响会被减弱,从而防止过拟合。