浅谈L1与L2正则化

正则化方法 (Regularization) 是机器学习领域中一种非常重要的技巧,它主要用来对权重系数加以约束限制,进而防止过拟合。数学上来讲,正则化即为在目标函数中加入对权值系数的约束。L1正则化与L2正则化形式上的区别在于范数的阶。这两种正则化的主要区别在于以下几点:

解的唯一性:L2正则化具有唯一解,而L1正则化没有唯一解。

0?wx_fmt=png

图一:本图阐释了L1正则化和L2正则化解的唯一性,其中绿色的是L2正则化约束,其余三条是L1正则化约束。

内嵌特征选择:L1具有内嵌的特征选择特性,而L2没有。L1正则化会得到稀疏的系数解,即少数权重系数非零,多数权重系数经过L1正则约束值为零。L2正则约束不会产生稀疏的系数解,因此不具特征选择特性。

稀疏性:即只有少数权重系数非零,L1正则化具有稀疏性,它会使得多数权重系数为零,或者少数比较大的权重系数(见图二)。

计算复杂度:L1正则化没有解析解,而L2正则化具有解析解。这使得L2正则化计算复杂度更低。对于非稀疏的情形,L1正则化计算复杂度较高。

0?wx_fmt=jpeg

图二:本图中给出了L1正则化和L2正则化的效果,L2正则化会使得权重系数缩减,L1正则化会使得权重系数具有稀疏性。L2计算复杂度更低,速度较快,而L1速度较慢。

0?wx_fmt=jpeg

0?wx_fmt=png

图三、图四给出了L1和L2正则化的图形阐释。

最后讨论下应用正则化的场景:

1. 变量较多或者样本量少于变量数的情形;

2. 特征集合具有比较高的共线性;

3. 寻求稀疏解(比如估计模型参数时的嵌入式特征选择);

4. 为了解释或寻求高维数据集中变量组合;

参考资料:

https://www.quora.com/What-is-the-difference-between-L1-and-L2-regularization#

http://www.chioka.in/differences-between-l1-and-l2-as-loss-function-and-regularization/

https://www.quora.com/How-do-you-decide-to-regularize-between-L1-L2-or-best-greedy-subset-selection

http://stats.stackexchange.com/questions/4272/when-to-use-regularization-methods-for-regression

http://cseweb.ucsd.edu/~elkan/254spring05/Hammon.pdf

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值