从贝叶斯派的角度去看L1和L2

winner8881

已于 2023-06-08 17:12:41 修改

阅读量914

点赞数

文章标签：机器学习人工智能算法

于 2023-06-08 17:09:20 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_22866291/article/details/131111619

版权

文章探讨了L1和L2正则化的概念，它们源于最大后验概率估计和带约束条件的优化问题。L1正则化（Lasso回归）通过拉普拉斯先验产生稀疏模型，适合特征选择；L2正则化（Ridge回归）利用高斯先验保持模型稳定性，防止过拟合。两者在特征维度和数据特性不同的情况下有不同的适用性。

摘要由CSDN通过智能技术生成

前沿

推导的两个角度

带约束条件的优化求解（拉格朗日乘子法）
贝叶斯学派的：最大后验概率

理解的两个角度

贝叶斯学派的角度，L2参数符合高斯先验，L1参数符合laplace先验。
从有约束问题角度，用拉格朗日转换成无约束问题后，转换成求最小值和约束交点问题。l1在几何上更尖锐，所以能起到特征筛选的作用。

在这里插入图片描述

在这里插入图片描述

总结

L1正则化可通过假设权重w的先验分布为拉普拉斯分布，由最大后验概率估计导出。
L2正则化可通过假设权重w的先验分布为高斯分布，由最大后验概率估计导出。

1、L1正则化（Lasso回归）：

L1泛数（L1 norm）是指向量中各个元素绝对值之和，也有个美称叫“稀疏规则算子”（Lasso regularization）。比如向量A=[1，-1，3]，那么A的L1范数为 |1|+|-1|+|3|.

线形回归的L1正则化通常称为Lasso回归，它和一般线形回归的区别是在损失函数上增加了一个L1正则化的项，L1正则化的项有一个常数系数alpha来调节损失函数的均方差项和正则化项的权重，具体Lasso回归的损失函数表达式如下：

在这里插入图片描述

2、L2正则化（Ridge回归）

线形回归的L2正则化通常称为Ridge回归，它和一般线形回归的区别是在损失函数上增加了一个L2正则化的项，和Lasso回归的区别是Ridge回归的正则化项是L2范数，而Lasso回归的正则化项是L1范数。具体Ridge回归的损失函数表达式如下：

在这里插入图片描述
Ridge回归在不抛弃任何一个特征的情况下，缩小了回归系数，使得模型相对而言比较的稳定，但和Lasso回归相比，这会使得模型的特征留的特别多，模型解释性差。

3、总结L1正则化和L2正则化：

L1范数: 为x向量各个元素绝对值之和。

L2范数: 为x向量各个元素平方和的1/2次方，L2范数又称Euclidean范数或Frobenius范数

Lp范数: 为x向量各个元素绝对值p次方和的1/p次方.

4、L1正则化和L2正则化的作用：

（1）L1正则化可以产生稀疏权值矩阵，即产生一个稀疏模型，可以用于特征选择；

（2）L2正则化可以防止模型过拟合，在一定程度上，L1也可以防止过拟合，提升模型的泛化能力；

（3）L1（拉格朗日）正则假设参数的先验分布是Laplace分布，可以保证模型的稀疏性，也就是某些参数等于0；

（4）L2（岭回归）正则假设参数的先验分布是Gaussian分布，可以保证模型的稳定性，也就是参数的值不会太大或太小。

在实际使用中，如果特征是高维稀疏的，则使用L1正则；如果特征是低维稠密的，则使用L2正则

5、L1和L2正则先验分别服从什么分布？

L1和L2正则先验分别服从什么分布，L1是拉普拉斯分布，L2是高斯分布。

  [1].L1正则先验是Laplace分布，L2正则先验分布是高斯分布
  [2].L1正则化和L2正则化的区别
  [3].理解：L1正则先验分布是Laplace分布，L2正则先验分布是Gaussian分布——复习篇

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
从贝叶斯派的角度去看L1和L2

从贝叶斯学派角度理解L1正则先验分布是Laplace分布，L2正则先验分布是Gaussian分布。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。