lasso回归_岭回归与lasso回归,计量与机器学习

4ad6182f77c44c2521bf61dbc6224cf7.png

这两种回归与普通的回归就是在后面多加了一个正则项,两种回归就是两种不同的正则项。

在机器学习中,处理过拟合的问题,或者在计量经济学中,处理多重共线性问题可以使用这两种方法来解决,其中,岭回归用的较多。

在普通的线性回归中,我们希望最小化损失函数,在计量中的称之为误差平方和(sum of squared errors),即所有预测值与其实际值之间的差的平方的和。

abb1fdcd6b0f5f95954319473fae8bf5.png

如果满足所有的前提假设的话,那么估计出来的权重便是blue的,即最佳线性无偏估计(best linear unbiased estimates)。在计量经济学中,我们需要的是对于样本更好的拟合,从而得到各个因素与因变量的准确关系。

但是机器学习中,情况确实不一样了,目标是得到一个分类或预测能力更好的模型。样本被分成了两块或三块,通过对于训练样本的训练得到模型,然后对于另一块测试样本进行预测,这样由于两块数据不一样,对于训练样本拟合的过好,反而可能是一个不好的结果,即模型太针对训练集,而对于测试集的预测反而下降,这是机器学习中的biased和variance的问题。

ee61abd73feb1dbb358bb1f39ced0773.png

所以,在机器学习中,我们主动加入正则项,引入估计误差,虽然可能会降低在训练集上的表现,但是可以使模型拥有更好的泛化能力,而不过于针对于训练集而导致在测试集上表现变差很多。

而在计量经济学中,多重共线性的问题或导致估计权重参数的“膨胀”,为了需要约束估计权重参数在一定范围之内,而引入了约束项,即所有权重的和或是平方和需要小于一定的数值。

岭回归和lasso回归就是两种不同的约束,岭回归使所有估计权重参数的平方和需要小于一定值,而lasso回归是所有权重参数的绝对值的和需要小于一定值。

机器学习中,通常会直接甩出原始代价函数,以及加了正则项之后的,如下

bd9b74c3ad510a5a15a404b2ab0a2445.png

有了函数便可以开始工作了。

如果关心这个函数是如何由来的,可以从原始的OLS来看,我们为的是最小化代价函数,加入了正则项就是在最优化问题中引入了一个约束条件,以下为岭回归示例。

cef44987db1c7f98910a0ba5dacae5f1.png

绿色的等高线图是原本的最优化问题,如果没有约束项,那毫无疑问选择最中心的那个最好,但如果加入了约束条件,即黑色的圈,既要最小化代价函数,又要符合约束条件,那选取的点总是在切线的位置,因此这里的约束条件可以视作为等于,而不是小于等于。

这样我们就可以使用拉格朗日乘子法,问题变成最小化下面这个函数的问题。

18545f24f9ede64f288826f23ce5af8f.png

这个函数就跟前面甩出来的岭回归的代价函数很像了,这里的λ就是惩罚系数,是事先给定的一个超参数,在这里可以视作常数,而后面一项c方与λ相乘也是一个常数,在最小化问题中没有什么用,可以直接忽略掉,因此,这个函数就与代价函数完全一样了。

9bc07da5272afb4ce32e728546c4144b.png

由代价函数对β求偏导,如果是个凸函数,那就可以得到以下的结果。

c6b7765c417484f67873be666da1de35.png

由此方程可以得知为什么惩罚系数λ越大,权重β就越小了,前面包含惩罚系数项的为分母,如果很大,那边上的就可以忽略不计,分母由λ决定,自然λ越大,β就越小了。

因此,引入正则项就是为了约束权重参数β,使它小一点,对于因变量贡献变小。

以下Andrew在梯度下降过程中引入正则项的推导也就很好懂了。

d2510e782f5d464452924c1806b97f22.png

这里的权重w即为β,由于一层神经网络有多个神经元,因此权重是二维的,正则项把他们都加起来即可。有最后的式子也可以很容易看出,就是在每次梯度下降之前就先对权重进行缩小,缩小惩罚系数的某个倍数。

lasso与岭回归不一样的就是惩罚项为一次项,那么约束条件在坐标轴上就从一个圆变成了一个菱形。

84f4bd895650d1ed6f2b3df1520995c5.png

同样取切点。之后的推到就类似了。

常说lasso被用于特征选取,因为lasso回归的结果很多权重等于0,说明这个特征或是变量没有作用,可以丢弃。原因在于上面的约束图形,如果是一个这样的图形,那么很显然,像比如岭回归的圆,这样的情况使得切点更可能在坐标轴上,所以会出现一个特征的权重为0的情况。

另外需要注意的一点是,可以看出权重参数是整体缩减的,因此,我们需要在训练之前对数据进行标准化,以消除不同特征之间的量纲影响。因为这可能使得一些并不重要的特征的权重反而大于重要的权重,使得惩罚出现问题。而消除了量纲影响之后,就避免了这样的情况。并且,标准化不会带来什么负面影响,因此,默认选择做一般不会出现问题。

以上公式截图与图形于:

https://www.youtube.com/watch?v=jbwSCwoT51M​www.youtube.com https://www.youtube.com/watch?v=5asL5Eq2x0A​www.youtube.com https://www.coursera.org/learn/deep-neural-network/lecture/Srsrc/regularization​www.coursera.org

封面图来自于:Elements of Statistical Learning by Hastie, Tibshirani, and Friedman

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值