L1、L2正则化

本文来自对下面这篇文章的翻译:
  https://medium.com/datadriveninvestor/l1-l2-regularization-7f1b4fe948f2
  正则化的宏观概念就是你对你模型做的任何事情,也就是种种所谓的惩罚,主要目的是为了减轻模型的复杂度,而不是去试图拟合数据。
一、为什么我们需要正则化?
  在训练数据时,随着特征种类和数量的增加,我们的模型变得越来越复杂,在学习数据模式的同时也学习了很多噪声的特征。这导致我们的模型能很好的适应训练集,但却很难适应测试集,泛化能力较差,这就是一种过拟合的现象。我们的目标是学习数据模式,忽略数据集中的噪声特征。

如何解决过拟合问题?

  1. 正则化
  2. 交叉验证
  3. 减少特征数量

二、什么是正则化?
  正则化是一种降低模型复杂度的方法。它通过惩罚损失函数来实现这一点。这有助于解决过拟合问题。正则化的原理是假设较小的权值生成更简单的模型,从而有助于避免过度拟合。

让我们来了解一下惩罚损失函数如何帮助简化模型
  损失函数可以表示为实际值与预测值之差的平方和:
  在这里插入图片描述
  随着输入特征的增加,模型变得复杂,并试图适应所有数据点,如下所示:
在这里插入图片描述
  惩罚权重theta3和theta4,让它们变得很小,甚至非常接近于零。使这些项可以忽略,这并有助于简化模型。
 在这里插入图片描述
如果输入变量对输出有影响怎么办?
  为了确保我们考虑了输入变量,我们将所有的权重都设置为小。这也使得模型更简单,不容易过度拟合。
在这里插入图片描述
  我们将正则化项添加到实际值与预测值之差的平方和中。正则化项使权值较小,使模型更简单,避免了过度拟合。
λ称为惩罚项或正则化参数,它决定了惩罚的权重。

  1. 当λ为0时,我们回到原来的损失函数。
    在这里插入图片描述
  2. 当λ很大时,我们惩罚权重并使它们接近于零。这将得到一个非常简单的模型,具有高偏差或拟合不足。
    在这里插入图片描述
    三、那么我们应该怎样去确定一个正确的λ值呢?
      它在0和一个大值之间。我们需要找到一个最优值λ以使得泛化误差很小。一个简单的方法是尝试不同的λ值的子样品数据,了解变化的损失函数,然后使用它在整个数据集。

四、什么是L1和L2正则化?
L1正则化(或Lasso或L1范数)
 在L1范数中,我们把某些权值参数缩小到零。当输入特征的权值接近于零时,就会导致L1范数稀疏。在稀疏解中,大多数输入特征的权值为零,很少有特征的权值非零。并不是所有的输入特征对预测都有相同的影响。对预测没有显著影响的,L1正则化将其权重参数直接赋为0。
  L1正则化是在进行特征选择。它将一些无关紧要的输入特征直接给权值为0,对于有用特征赋予非零权值。
  在这里插入图片描述
  在L1正则化中,我们惩罚权值的绝对值。L1正则化项如上述公式的红色框中所示。Lasso生成了一个简单的、可解释的、包含输入特性子集的模型。
  在这里插入图片描述
  在L2正则化中,正则化项是所有特征权值的平方和,如上式所示。L2正则化使权值很小,但不使它们为零,也不做非稀疏解。L2对异常值不具有鲁棒性,因为平方项会放大异常值的误差差异,而正则化项试图通过惩罚权重来修正异常值。当所有输入特征都影响输出,且所有权值大致相同时,岭回归的性能更好。
  
五、L1正则化与L2正则化之间的不同?
  L1正则化:
   1) 惩罚权值绝对值之和
   2) 稀疏解
   3) 多解
   4) 特征选择
   5) 对异常值具有鲁棒性
   6) 生成简单且可解释但不能学习复杂模式的模型
  L2正则化:
   1) 惩罚权值的平方之和
   2) 非稀疏解
   3) 单一解
   4) 无特征选择
   5) 对异常值不具鲁棒性
   6) 当输出变量是所有输入特性的函数时,给出了更好的预测
   7) 能够学习复杂的数据模式

六、为什么L1正则化多解而L2正则化单一解
  1.先来看L1正则化
  在这里插入图片描述
  L1正则化=λ|θ|,当λ|θ|≤C时。C是一个正常数值。
  我们可以写为λθ-C = 0。这个方程可以有多个解,我们有不同的权值θ,去满足这个方程。这也有助于特征选择,某些不影响目标变量的输入特征的权重将为零或接近零。
  2.再来看L2正则化
  在这里插入图片描述
  L2正则化=λ|θ|²,当λ|θ|²≤C²时。C是一个正常数。
  我们可以写为λθ²- c²= 0。这个方程是一个二次方程,只能有一个解。正如我们判别等于零的二次方程我们可以为θ只有一个解。这是因为L2正则化没有特征选择,包含了所有特征,θ值是一个非零整数,所以这个方程只有一个解。
  当我们有具有相关性的输入特征时,我们用L2正则化,就像房价取决于房子的面积和房间数量。在这样的场景下,θ值是一个非零整数。因此L2没有特征选择,具有非稀疏解。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值