从贝叶斯派的角度去看L1和L2

前沿

推导的两个角度

  • 带约束条件的优化求解(拉格朗日乘子法)
  • 贝叶斯学派的:最大后验概率

理解的两个角度

  • 贝叶斯学派的角度,L2参数符合高斯先验,L1参数符合laplace先验。
  • 从有约束问题角度,用拉格朗日转换成无约束问题后,转换成求最小值和约束交点问题。l1在几何上更尖锐,所以能起到特征筛选的作用。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
总结

  • L1正则化可通过假设权重w的先验分布为拉普拉斯分布,由最大后验概率估计导出。
  • L2正则化可通过假设权重w的先验分布为高斯分布,由最大后验概率估计导出。

1、L1正则化(Lasso回归):

L1泛数(L1 norm)是指向量中各个元素绝对值之和,也有个美称叫“稀疏规则算子”(Lasso regularization)。比如向量A=[1,-1,3], 那么A的L1范数为 |1|+|-1|+|3|.

线形回归的L1正则化通常称为Lasso回归,它和一般线形回归的区别是在损失函数上增加了一个L1正则化的项,L1正则化的项有一个常数系数alpha来调节损失函数的均方差项和正则化项的权重,具体Lasso回归的损失函数表达式如下:

在这里插入图片描述

2、L2正则化(Ridge回归)

线形回归的L2正则化通常称为Ridge回归,它和一般线形回归的区别是在损失函数上增加了一个L2正则化的项,和Lasso回归的区别是Ridge回归的正则化项是L2范数,而Lasso回归的正则化项是L1范数。具体Ridge回归的损失函数表达式如下:

在这里插入图片描述
Ridge回归在不抛弃任何一个特征的情况下,缩小了回归系数,使得模型相对而言比较的稳定,但和Lasso回归相比,这会使得模型的特征留的特别多,模型解释性差。

3、总结L1正则化和L2正则化:

L1范数: 为x向量各个元素绝对值之和。

L2范数: 为x向量各个元素平方和的1/2次方,L2范数又称Euclidean范数或Frobenius范数

Lp范数: 为x向量各个元素绝对值p次方和的1/p次方.

4、L1正则化和L2正则化的作用:

(1)L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择;

(2)L2正则化可以防止模型过拟合,在一定程度上,L1也可以防止过拟合,提升模型的泛化能力;

(3)L1(拉格朗日)正则假设参数的先验分布是Laplace分布,可以保证模型的稀疏性,也就是某些参数等于0;

(4)L2(岭回归)正则假设参数的先验分布是Gaussian分布,可以保证模型的稳定性,也就是参数的值不会太大或太小。

在实际使用中,如果特征是高维稀疏的,则使用L1正则;如果特征是低维稠密的,则使用L2正则

5、L1和L2正则先验分别服从什么分布 ?

L1和L2正则先验分别服从什么分布,L1是拉普拉斯分布,L2是高斯分布。

  [1].L1正则先验是Laplace分布,L2正则先验分布是高斯分布
  [2].L1正则化和L2正则化的区别
  [3].理解:L1正则先验分布是Laplace分布,L2正则先验分布是Gaussian分布——复习篇

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值