【机器学习】好想彻底搞明白L1/L2正则

最新推荐文章于 2024-05-18 20:08:10 发布

monkey512

最新推荐文章于 2024-05-18 20:08:10 发布

阅读量1.5k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_23269761/article/details/82217658

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

1.L1/L2的先验

说到先验的概念就不得不提到贝叶斯理论的概念，由于现在大家都是提倡大数据的时代，而数据量越大，贝叶斯理论中先验的力量就会越小，但是实际上大多数模型中，尤其是今天我们说的正则化中都有着贝叶斯理论的影子。

但是贝叶斯理论真的很难理解的特别透彻，L1/L2的贝叶斯理论其实就是贝叶斯线性回归啦，不过真正的贝叶斯线性回归是增量学习方法进行优化的，而不是利用梯度下降方法，因为梯度下降方法本质上还是将被优化的参数W看作一个未知的常数在寻找最优值，而不是贝叶斯理论中的看作一个随机变量，不断地去拟合出其预测分布。
参考博客：
贝叶斯线性回归：【一般都是引用了PRML书上的例子】
https://blog.csdn.net/daunxx/article/details/51725086
从贝叶斯的观点看线性分类和线性回归：
https://honey0920.github.io/2017/07/11/prml-06/
如何通俗地解释贝叶斯线性回归的基本原理？
https://www.zhihu.com/question/22007264
知乎里有一个说的感觉很戳心窝：
就是把多加一层（超）参数变成一种系统的学问【看过贝叶斯回归明白为什么L1正则是假设参数W服从拉普拉斯分布，L2正则是正态分布，最简单的最大似然是均匀分布后，就可以知道，如果我们知道分布的具体参数σ(都是假设均值维0的，因为不希望W过大，应该在0附近波动模型才稳定)，那么正则中的超参数正则项的惩罚参数就有理可依了啊！！！！】

以下两幅图来自：
https://www.cnblogs.com/heguanyou/p/7688344.html
这里写图片描述

以上图中用到的公式可能和我们平时见的长的不一样，为了计算方便将协方差取了倒数，我们熟悉的两个分布公式如下
这里写图片描述

为什么正则化可以抵抗过拟合？
很多解释都说正则化是剃刀原理什么什么的，参数越小这模型越简单，其实这种解释挺玄挺不准确的。有种比较靠谱的解释说正则化是在bias和variance之间做一个tradeoff，欠拟合是高bias，过拟合是高variance，正则化的作用是给模型加一个先验，lasso(l1)认为模型是拉普拉斯分布，ridge(l2)认为是高斯分布，正则项对应参数的协方差，协方差越小，这个模型的variance越小，泛化能力越强，也就抵抗了过拟合。

另一种说法：
这里写图片描述

2.为什么L1正则会使得参数稀疏，而L2不会？

参考博客：
https://vimsky.com/article/969.html
https://blog.csdn.net/zouxy09/article/details/24971995
解释角度1：L1范数是L0范数的近似凸优化（这个角度又理解不好）
解释角度2：经典的几何解释，画图（这个角度感觉很抽象）
解释角度3：从梯度的数学公式角度（但感觉这个角度很牵强）
欸~

3.如何求解Lasso?次梯度问题

未完待续~

4.从数学角度解释为什么L2正则可以提升模型的泛化能力？

这里写图片描述

monkey512

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【机器学习】好想彻底搞明白L1/L2正则

1.L1/L2的先验说到先验的概念就不得不提到贝叶斯理论的概念，由于现在大家都是提倡大数据的时代，而数据量越大，贝叶斯理论中先验的力量就会越小，但是实际上大多数模型中，尤其是今天我们说的正则化中都有着贝叶斯理论的影子。但是贝叶斯理论真的很难理解的特别透彻，L1/L2的贝叶斯理论其实就是贝叶斯线性回归啦，不过真正的贝叶斯线性回归是增量学习方法进行优化的，而不是利用梯度下降方法，因为梯度下降方...
复制链接

扫一扫