【机器学习】好想彻底搞明白L1/L2正则

1.L1/L2的先验

说到先验的概念就不得不提到贝叶斯理论的概念,由于现在大家都是提倡大数据的时代,而数据量越大,贝叶斯理论中先验的力量就会越小,但是实际上大多数模型中,尤其是今天我们说的正则化中都有着贝叶斯理论的影子。

但是贝叶斯理论真的很难理解的特别透彻,L1/L2的贝叶斯理论其实就是贝叶斯线性回归啦,不过真正的贝叶斯线性回归是增量学习方法进行优化的,而不是利用梯度下降方法,因为梯度下降方法本质上还是将被优化的参数W看作一个未知的常数在寻找最优值,而不是贝叶斯理论中的看作一个随机变量,不断地去拟合出其预测分布。
参考博客:
贝叶斯线性回归:【一般都是引用了PRML书上的例子】
https://blog.csdn.net/daunxx/article/details/51725086
从贝叶斯的观点看线性分类和线性回归:
https://honey0920.github.io/2017/07/11/prml-06/
如何通俗地解释贝叶斯线性回归的基本原理?
https://www.zhihu.com/question/22007264
知乎里有一个说的感觉很戳心窝:
就是把多加一层(超)参数变成一种系统的学问【看过贝叶斯回归明白为什么L1正则是假设参数W服从拉普拉斯分布,L2正则是正态分布,最简单的最大似然是均匀分布后,就可以知道,如果我们知道分布的具体参数σ(都是假设均值维0的,因为不希望W过大,应该在0附近波动模型才稳定),那么正则中的超参数正则项的惩罚参数就有理可依了啊!!!!】

以下两幅图来自:
https://www.cnblogs.com/heguanyou/p/7688344.html
这里写图片描述
这里写图片描述

以上图中用到的公式可能和我们平时见的长的不一样,为了计算方便将协方差取了倒数,我们熟悉的两个分布公式如下
这里写图片描述
这里写图片描述
为什么正则化可以抵抗过拟合?
很多解释都说正则化是剃刀原理什么什么的,参数越小这模型越简单,其实这种解释挺玄挺不准确的。有种比较靠谱的解释说正则化是在bias和variance之间做一个tradeoff,欠拟合是高bias,过拟合是高variance,正则化的作用是给模型加一个先验,lasso(l1)认为模型是拉普拉斯分布,ridge(l2)认为是高斯分布,正则项对应参数的协方差,协方差越小,这个模型的variance越小,泛化 能力越强,也就抵抗了过拟合。

另一种说法:
这里写图片描述

2.为什么L1正则会使得参数稀疏,而L2不会?

参考博客:
https://vimsky.com/article/969.html
https://blog.csdn.net/zouxy09/article/details/24971995
解释角度1:L1范数是L0范数的近似凸优化(这个角度又理解不好)
解释角度2:经典的几何解释,画图(这个角度感觉很抽象)
解释角度3:从梯度的数学公式角度(但感觉这个角度很牵强)
欸~

3.如何求解Lasso?次梯度问题

未完待续~

4.从数学角度解释为什么L2正则可以提升模型的泛化能力?

这里写图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值