为什么L1比L2更容易得到稀疏解

最新推荐文章于 2024-08-02 18:11:42 发布

算法有点趣

最新推荐文章于 2024-08-02 18:11:42 发布

阅读量1k

点赞数 1

分类专栏： L1比L2更容易得到稀疏解文章标签：数据挖掘算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38381682/article/details/105915467

版权

L1比L2更容易得到稀疏解专栏收录该内容

1 篇文章 0 订阅

订阅专栏

这个问题被面试官问到的概率极其高。网上给多解释都是几何理解。个人感觉有些牵强（或者是作者没get到点）。总之，为了避免再次被问到卡壳。搜了很多解释。终于，找到了一个最好理解的答案。从数学角度去理解。

20210316更新：无意间在tensorflow的教程中看到了这句话，真的是一语道破

原文：L1 regularization pushes weights towards exactly zero encouraging a sparse model. L2 regularization will penalize the weights parameters without making them sparse since the penalty goes to zero for small weights-one reason why L2 is more common.

翻译：L1正则推动参数为0，使模型更加稀疏。而L2正则化将惩罚权重，但不会使得模型模型更加稀疏，因为接近0的参数的惩罚（w^2）接近0——这是L2更常见的原因。

——————之前从数学推导的角度——————————

原始的损失函数：Loss(w)。设其在0的导数为D(0) = d(0).

引入L1的损失函数：Loss(w)+lamda1*|w|。则其在0的导数为D1(w) = d(0)+lamda1*sgn(w)。

引入L2的损失函数：Loss(w)+lamda2*|w|^2。则其在0的导数为D2(w) = d(0) + 2*lamda2*w。

若L1在0点能获取稀疏解，需要满足的条件为：D1(w) 在0存在极小值。

D1(0+) = d(0)+lamda1(if w>0);

D1(0-) = d(0)-lamda1(if w<0);

D1(0) 为极小值点的必要条件为：D1(0+)*D1(0-)<0。=>lamda1*lamda1<d(0)^2。

若L2在0点能获取稀疏解，需要满足的条件为：D2(w) 在0存在极小值。即D2(w)*D2(2) =0 ;

d(0) + 2*lamda2*w=0;=>d(0) =0;（引入L2，在0点的导数没有发生变化）

L1获取稀疏解的条件明显比L2获取稀疏解的条件宽松得多。所以，L1比L2更容易获取稀疏解。

备注：引入L1后，代价函数在0点的导数有一个突变，获取稀疏解的概率变大。只要满足D1(0+)和D1(0-)异号即可。

算法有点趣

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
为什么L1比L2更容易得到稀疏解

这个问题被面试官问到的概率极其高。网上给多解释都是几何理解。个人感觉有些牵强（或者是作者没get到点）。总之，为了避免再次被问到卡壳。搜了很多解释。终于，找到了一个最好理解的答案。从数学角度去理解。原始的损失函数：Loss(w)。设其在0的导数为D(0) = d(0).引入L1的损失函数：Loss(w)+lamda1*|w|。则其在0的导数为D1(w) = d(0)+lamda1*sgn(...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。