CTR 预测理论(十二):L1 正则相比于 L2 更容易获得稀疏解原因总结

最近复习正则约束,考虑到从未本质上考虑过 L1 正则稀疏性问题,现查阅相关资料,总结整理如下:

1. 从优化问题来看

首先,我们要优化的是这个问题 min ⁡ w E D ( w ) + λ E R ( w ) \min\limits_w E_D(w) + \lambda E_R(w) wminED(w)+λER(w)

其次, min ⁡ w E D ( w ) + λ E R ( w ) \min\limits_w E_D(w) + \lambda E_R(w) wminED(w)+λER(w) min ⁡ w E D ( w )       s . t . E R ( w ) ⩽ η \min\limits_w E_D(w) \ \ \ \ \ s.t. E_R(w) \leqslant \eta wminED(w)     s.t.ER(w)η

这个优化问题是等价的,即对一个特定的 λ \lambda λ 总存在一个 η ​ \eta​ η 使得这两个问题是等价的(这个是优化里的知识)。

最后,下面这个图表达的其实

min ⁡ w E D ( w ) s . t . E R ( w ) ⩽ η ​ \min\limits_w E_D(w) \\s.t. E_R(w) \leqslant \eta​ wminED(w)s.t.ER(w)η

这个优化问题, w w w 的解限制在黄色区域内,同时使得经验损失尽可能小

在这里插入图片描述

下图是一个更直观的解读:

在这里插入图片描述

2. 从概率角度来看

在这里插入图片描述

3. 从梯度角度来看

在这里插入图片描述

参考文献

[1] l1 相比于 l2 为什么容易获得稀疏解? - 曹荣禹的回答

[2] l1 相比于 l2 为什么容易获得稀疏解? - 王小明的回答

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值