L1L2正则化的选择

首先了解范数:

范数是衡量某个向量空间(或矩阵)中的每个向量以长度或大小。范数的一般化定义:对实数p>=1, 范数定义如下:
在这里插入图片描述

  • L0范数
    表示非零元素的个数,希望参数中的大部分元素是0,希望参数是稀疏的,但是L0有一个缺点就是难以优化,所以就引出了L1正则项。
  • L1范数
    当p=1时,是L1范数,其表示某个向量中所有元素绝对值的和。它比L0要更容易求解,所以在实际使用中,L1的使用要多于L0的使用。
  • L2范数
    当p=2时,是L2范数, 表示某个向量中所有元素平方和再开根, 也就是欧几里得距离公式。

加入正则化则减小模型复杂度:
L0范数限制非零参数个数
L1、L2范数限制参数大小,使参数接近0

证明:

min J(w;x,y)
s.t. ||w|| <= C ,C为常数
通过上面的式子构造拉格朗日函数:

L = J(w;x,y) + a * ( ||w|| - C )

要求L最小,即

min J(w;x,y) + a * ( ||w|| - C )  

则函数L对w求导等于0,

min J(w;x,y) + a * ||w|| - a * C 

最后那项为常数项,所有得到

min J(w;x,y) + a * ||w|| 

这个正是常用的目标函数加入正则化之后的式子,所有可证可以减小模型复杂度

从几何的角度来理解:

min J(w;x,y) + a * ||w|| 中
当||w||为L1时:(假设只有两个参数)

L1

|w1| +|w2| <= C,图像如下:
在这里插入图片描述
而LR的损失函数J为一圈一圈的,将两个图画在一起:
在这里插入图片描述
min J(w;x,y) + a * ||w|| 要求的是最小值,且同时满足两个条件,一个为min J(w;x,y) ,一个为min a * ||w||,所以解肯定在交线的位置
注意交点是在w2轴上的,坐标为(0,w2)此时w1为0,当有很多位特征的时候,会产生稀疏解

L2

L2图像如下:
在这里插入图片描述
在这里插入图片描述
L2不会产生稀疏解

总结

L1-ball 与L2-ball的不同就在于L1在和每个坐标轴相交的地方都有“角”出现,而目标函数的"等高线"除非位置摆得非常好,大部分时候都会在角的地方相交。注意到在角的位置就会产生稀疏性。相比之下,L2-ball 就没有这样的性质,因为没有角,所以第一次相交的地方出现在具有稀疏性的位置的概率就变得非常小。

L1可以实现稀疏,但我们会想呀,为什么要稀疏?让我们的参数稀疏有什么好处呢?这里扯两点:

1)特征选择(Feature Selection):

大家对稀疏规则化趋之若鹜的一个关键原因在于它能实现特征的自动选择。一般来说,xi的大部分元素(也就是特征)都是和最终的输出yi没有关系或者不提供任何信息的,在最小化目标函数的时候考虑xi这些额外的特征,虽然可以获得更小的训练误差,但在预测新的样本时,这些没用的信息反而会被考虑,从而干扰了对正确yi的预测。稀疏规则化算子的引入就是为了完成特征自动选择的光荣使命,它会学习地去掉这些没有信息的特征,也就是把这些特征对应的权重置为0。

2)可解释性(Interpretability):

另一个青睐于稀疏的理由是,模型更容易解释。例如患某种病的概率是y,然后我们收集到的数据x是1000维的,也就是我们需要寻找这1000种因素到底是怎么影响患上这种病的概率的。假设我们这个是个回归模型:y=w1x1+w2x2+…+w1000x1000+b(当然了,为了让y限定在[0,1]的范围,一般还得加个Logistic函数)。通过学习,如果最后学习到的w就只有很少的非零元素,例如只有5个非零的wi,那么我们就有理由相信,这些对应的特征在患病分析上面提供的信息是巨大的,决策性的。也就是说,患不患这种病只和这5个因素有关,那医生就好分析多了。但如果1000个wi都非0,医生面对这1000种因素,累觉不爱。

L2范数是指向量各元素的平方和然后求平方根。我们让L2范数的规则项||W||2最小,可以使得W的每个元素都很小,都接近于0,但与L1范数不同,它不会让它等于0,而是接近于0,这里是有很大的区别的哦。而越小的参数说明模型越简单,越简单的模型则越不容易产生过拟合现象。

L2范数的好处是什么呢?

1)学习理论的角度:

从学习理论的角度来说,L2范数可以防止过拟合,提升模型的泛化能力。参数很小时,即使样本数据x发生很大的变化,模型预测值y的变化也会很有限。

2)优化计算的角度:

从优化或者数值计算的角度来说,L2范数有助于处理 condition number不好的情况下矩阵求逆很困难的问题。可以让我们的优化求解变得稳定和快速。

一句话总结就是:L1会趋向于产生少量的特征,而其他的特征都是0,而L2会选择更多的特征,这些特征都会接近于0。L1在特征选择时候非常有用,而L2就只是一种规则化而已。

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值