CTR 预测理论（十二）：L1 正则相比于 L2 更容易获得稀疏解原因总结

最新推荐文章于 2022-01-16 20:51:45 发布

dby_freedom

最新推荐文章于 2022-01-16 20:51:45 发布

阅读量609

点赞数 2

分类专栏：推荐系统理论进阶文章标签： CTR 预测理论（十二） L1 正则相比于 L2 更容易获得稀疏解原因总结 L1 L2 L1稀疏性

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Dby_freedom/article/details/89020155

版权

Machine Learning 同时被 2 个专栏收录

32 篇文章 10 订阅

订阅专栏

推荐系统理论进阶

32 篇文章 34 订阅

订阅专栏

最近复习正则约束，考虑到从未本质上考虑过 L1 正则稀疏性问题，现查阅相关资料，总结整理如下：

1. 从优化问题来看

首先，我们要优化的是这个问题 $\min\limits_w E_D(w) + \lambda E_R(w)$ 。

其次， $\min\limits_w E_D(w) + \lambda E_R(w)$ 和 $\min\limits_w E_D(w) \ \ \ \ \ s.t. E_R(w) \leqslant \eta$

这个优化问题是等价的，即对一个特定的 $\lambda$ 总存在一个 $\eta$ 使得这两个问题是等价的（这个是优化里的知识）。

最后，下面这个图表达的其实

$\min\limits_w E_D(w) \\s.t. E_R(w) \leqslant \eta$

这个优化问题，把 $w$ 的解限制在黄色区域内，同时使得经验损失尽可能小。

在这里插入图片描述

下图是一个更直观的解读：

在这里插入图片描述

2. 从概率角度来看

在这里插入图片描述

3. 从梯度角度来看

在这里插入图片描述

参考文献

[1] l1 相比于 l2 为什么容易获得稀疏解？ - 曹荣禹的回答

[2] l1 相比于 l2 为什么容易获得稀疏解？ - 王小明的回答

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。