机器学习稀疏之L1正则化

本文详细介绍了L1正则化在机器学习中的作用,特别是其如何通过Laplace模型实现对离散特征的连续近似,以解决L0正则化的计算复杂性和局部最优问题。L1正则化产生稀疏解的原因在于其目标函数的非光滑性质,这在LASSO(最小绝对收缩和选择算子)中体现明显。文章还探讨了L1和L2正则化的区别,指出L1正则化的优化条件及其对系数的软阈值操作,解释了为何L1正则化适用于特征选择。
摘要由CSDN通过智能技术生成

一、L1正则化

在L0 正则化中,通常我们有很多特征时, 这样在计算后验形式p(r|D) 有很大的复杂度。即使利用贪心算法,很容易陷入局部拟合情况。

其中一部分原因是因为 rj 特征是离散形式的, 这样造成目标函数的不光滑, 。 在优化领域中,通常的做法是对于离散的约束,我们通过松弛的方法来将其变为连续的约束。 我们可以在spike-and-slab 尖峰与平波模型中,通过在wj =0, 的 阶跃函数 取值处来用一定大小的概率值进行代替,这样通过在wj =0 用一定值代替,来构造成为连续函数的形式,这样来接近原始模型, 比如可以用零均值的laplace 模型代替。 这里我们应用了laplace 具有的长尾,(并且这里对于异常值的鲁棒对长尾的模型是很好的,正太情况将会有很大的异常变化。)


从图中可以看出, u = 0,也存在尖峰的,这样就可以用连续的形式进行代替,从而更好的优化目标函数。


更加精确的我们利用的Laplace 模型作为先验

             

我们用均匀先验的形式在截距项 , , 因而在MAP 估计,其带罚的负log 似然形式为:

             

其中   为 w 的L1模, 利用合适的 , 可得到稀疏的  , 这里 我们认为 LI 正则是L0 非凸函数的 凸近似, 因为 L0 的模值 是0 ,wi, wj , ... 0 ... 每个是离散的, 而L1 模 是 |wj| 的加和, 因而是连续的一个值的过程,因而是凸近似。

所以在 线性回归中 L1 目标函数:

             

通常 用 0均值Laplace 先验参数, 这样的MAP估计就是L1正则,存在着 凸的和非凸的NLL项, 有很多算法设计解决这个问题(这个以后讨论)


二、 为什么 L1 正则产生的是稀疏解

我们现在来说说 L1 产生的是稀疏解, 而L2 不是。我们主要以线性回归为例说明,这个在 逻辑回归和 其他GLMs 中是相似的。 


虽然L1 是连续的,但是 还是不光滑的函数, 所以不光滑的目标函数为:

            

我们将其进行改写, 将后面的作为约束,但是变为光滑的目标函数: (二次函数 约束是线性的)

            

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值