L1正则项laplace分布 L2正则项gauss分布的前因后果(转载)

我觉得这个讲的也不错,大家可以看看:https://blog.csdn.net/m0_38045485/article/details/82147817

正则化

这里写图片描述

(截自李航《统计学习方法》)

常用的正则项有L1,L2等,这里只介绍这两种。

2.2 L1正则项

L1正则,又称lasso,其公式为:

特点:约束θj的大小,并且可以产生稀疏性

[问题] : 为什么L1正则可以产生稀疏性?

è¿éåå¾çæè¿°

1. 从图形上理解,L1正则的实质,相当于约束了θ的绝对值之和的大小。将这个约束条件,转化到解空间中,就是一个有角图形。对于这个有角图形,当我们求解时,会有更大几率去接触到角。而角就代表着,坐标轴上的交点,有的模型参数为0,也就是模型参数对于的这个特征被淘汰。 

2. 从贝叶斯角度上来看

 

可以看到,加上正则项L1,在贝叶斯的角度上,等同于对θ假设一个先验分布为拉普拉斯分布。

而拉普拉斯分布如图: 
这里写图片描述

由上可知,当μ=0时,它在0的概率最大,尾部较正态分布更平坦。表示它更倾向于去使θij等于0,因而产生稀疏解。

 

2.3 L2正则项

L2正则,又称ridge,其公式为:

特点:约束θij的大小,使之尽可能小。

[问题]: 为什么L2没有倾向产生稀疏解?

  1. 从图形上,见L1正则项图形那张图。L2约束条件在解空间中没有角,因而更倾向于约束其值的大小,而不是使其值为0。

  2. 从贝叶斯的角度,L2相当于给θ一个先验分布为高斯分布。

è¿éåå¾çæè¿°

与上述拉普拉斯分布相对比,我们可以看出,它在两端尾部略高与拉普拉斯分布,在0处更平坦。这也说明了加上L2正则项,它更趋向于产生趋近于0的值,而不是稀疏。

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值