L1和L2范数

L0范数是指向量中非0的元素的个数。如果我们用L0范数来规则化一个参数矩阵W的话,就是希望W中非0元素的个数最少,即大部分元素都是0。换句话说,希望让参数W是稀疏的。

L1范数是指向量中各个元素绝对值之和,也有个美称叫“稀疏规则算子”(Lasso regularization)。任何的规则化算子,如果他在Wi=0的地方不可微,并且可以分解为一个“求和”的形式,那么这个规则化算子就可以实现稀疏。那么W的L1范数是W的绝对值,|w|在w=0处是不可微的。

既然L0可以实现稀疏,为什么不用L0,而要用L1呢?是因为L0范数很难优化求解,而且L1范数是L0范数的最优凸近似,而且它比L0范数要容易优化求解。

在正则化项中使用L1范数的出发点即希望参数稀疏,有两个作用:

  1. 可以进行特征选择。一般来说,xi的大部特征都是和最终的输出yi没有关系或者不提供任何信息的,在最小化目标函数的时候考虑xi这些额外的特征,虽然可以获得更小的训练误差,但在预测新的样本时,这些没用的信息反而会被考虑,从而干扰了对正确yi的预测。稀疏规则化算子的引入就是为了完成特征自动选择的光荣使命,它会学习地去掉这些没有信息的特征,也就是把这些特征对应的权重置为0。
  2. 让学习结果具备可解释性:如果输入样本有很多个特征,但是学习到的参数只有几个为非0,则预测的结果只与这几个参数不为0的特征有关系,即可以解释为什么学习的结果是这样。

L2范数是指向量各元素的平方和然后求平方根。我们让特征权重的L2范数||W||2最小,可以使得W的每个元素都很小,都接近于0,但与L1范数不同,它不会让它等于0,而是接近于0。这样可以

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值