一文了解L1正则化与L2正则化

正则化的目的?

欠拟合从字面意思来看就是欠缺拟合程度,这一般在复杂度很低的模型中出现。从数学上来看,一元一次函数为一条直线、一元二次函数为一个曲线,以此类推。那么参数越多,其越能拟合更复杂的特征,但是一味的增加模型的复杂度就会造成过拟合现象。一旦过拟合,模型的泛化能力以及鲁棒性将特别差。那么怎么解决过拟合现象呢?
在从数学方面分析来看,为了减小过拟合,要将一部分参数置为0,最直观的方法就是限制参数的个数,因此可以通过正则化来解决,即减小模型参数大小或参数数量,缓解过拟合。

L1和L2正则化

(一)L1正则化

L1正则化,又称Lasso Regression,是指权值向量w中各个元素的绝对值之和,是一种常用的正则化技术,用于控制模型的复杂度、特征选择和降低过拟合的风险。与L2正则化不同,L1正则化通过添加权重向量的L1范数作为正则化项来实现。 比如 向量A=[1,-1,3], 那么A的L1范数为 |1|+|-1|+|3|。
L1正则化可以让一部分特征的系数缩小到0,所以L1适用于特征之间有关联的情况可以产生稀疏权值矩阵(很多权重为0,则一些特征被过滤掉),即产生一个稀疏模型,可以用于特征选择。因此,L1正则化可以用于优化模型,使得仅有对预测目标有重要影响的特征保留下来,而对次要特征的权重趋近于0,从而降低模型的复杂度并提高泛化能力。L1也可以防止过拟合。
那么L1为什么会产生一个稀疏权值矩阵呢?
L1范数是指权重向量中各个元素的绝对值之和,所以L1是带有绝对值符号的函数,因此是不完全可微的。机器学习的任务就是要通过一些方法(比如梯度下降)求出损失函数的最小值。当我们在原始损失函数后添加L1正则化项时,相当于对损失函数做了一个约束。
在这里插入图片描述
或者是:L(w) = Loss(y, y_pred) + λ * |w|

其中,L(w)是加了L1正则化的损失函数,Loss(y, y_pred)是模型的原始损失函数(例如,均方误差或交叉熵),w是模型的权重向量,||w||1是权重向量的L1范数,λ是正则化参数,用于控制正则化的强度。

此时我们的任务变成在约束下求出取最小值的解。考虑二维的情况,即只有两个权值和 ,此时对于梯度下降法,求解函数的过程可以画出等值线,同时L1正则化的函数也可以在二维平面上画出来。如下图:
在这里插入图片描述
图中蓝色圆圈线是Loss中前半部分待优化项的等高线,就是说在同一条线上其取值相同,且越靠近中心其值越小。
黄色菱形区域是L1正则项限制。带有正则化的loss函数的最优解要在黄色菱形区域和蓝色圆圈线之间折中,也就是说最优解出现在图中优化项等高线与正则化区域相交处。从图中可以看出,当待优化项的等高线逐渐向正则项限制区域扩散时,L1正则化的交点大多在坐标轴上,则很多特征维度上其参数w为0,因此会产生稀疏解;而正则化前面的系数,可以控制图形的大小。越小,约束项的图形越大(上图中的黄色方框);越大,约束项的图形就越小,可以小到黑色方框只超出原点范围一点点,这是最优点的值中的可以取到很小的值。

L1正则化的一些关键特点和优点包括:
特征选择:L1正则化有助于选择对预测目标具有重要影响的特征,使得模型更具解释性和可解释性。通过将权重置为0,L1正则化可以自动执行特征选择。
稀疏性:L1正则化倾向于生成稀疏权重向量,即将某些特征的权重归零。这有助于减少特征维度,提高模型的可解释性和计算效率。
鲁棒性:L1正则化对于异常值和噪声具有一定的鲁棒性,可以减少其对模型的影响。
系数简化:L1正则化可以导致模型的系数变得更加简单,易于解释和理解。
需要注意的是,L1正则化与L2正则化在惩罚权重的方式和效果上有所不同。L1正则化倾向于生成稀疏解,而L2正则化则倾向于将权重值平均分散在各个特征上。

(二)、L2正则化

L2正则化是指权值向量中各个元素的平方和然后再求平方根,对参数进行二次约束,参数w变小,但不为零,不会形成稀疏解 。它会使优化求解稳定快速,使权重平滑。所以L2适用于特征之间没有关联的情况。
在这里插入图片描述

或者是:L(w) = Loss(y, y_pred) + λ * ||w||^2

其中,L(w)是加了L2正则化的损失函数,Loss(y, y_pred)是模型的原始损失函数(例如,均方误差或交叉熵),w是模型的权重向量,||w||^2是权重向量的L2范数的平方,λ是正则化参数,用于控制正则化的强度。

正则化参数λ越大,正则化项在损失函数中的比重就越大,对权重的惩罚也就越大。这有助于降低模型对训练数据的过拟合程度,并使模型倾向于选择较小的权重值,从而提高模型的泛化能力。

考虑二维的情况,即只有两个权值和 ,此时对于梯度下降法,求解函数的过程可以画出等值线,同时L2正则化的函数也可以在二维平面上画出来。如下图:
在这里插入图片描述

图中蓝色一圈一圈的线是Loss中前半部分待优化项的等高线,就是说在同一条线上其取值相同,且越靠近中心其值越小。图中黄色圆形区域是L2正则项限制。带有正则化的loss函数的最优解要在loss函数和正则项之间折中,也就是说最优解出现在图中优化项等高线与正则化区域相交处。从图中可以看出,当待优化项的等高线逐渐向正则项限制区域扩散时L2正则化的交点大多在非坐标轴上,二维平面下L2正则化的函数图形是个圆,与方形相比,被磨去了棱角。因此与相交时使得或等于零的机率小了许多,这就是为什么L2正则化不具有稀疏性的原因。

L2正则化的优点包括:
可以有效地减少过拟合现象,提高模型的泛化能力。
通过控制权重的大小,可以防止模型过度依赖某些特征。
L2正则化对权重的惩罚是连续可微的,有助于使用梯度下降等优化算法进行模型训练。
需要注意的是,L2正则化只对权重进行惩罚,对于偏置(bias)项通常不应用正则化。另外,正则化参数λ的选择通常需要通过交叉验证等方法进行调优,以获得最佳的模型性能。

  • 16
    点赞
  • 73
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

one-over

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值