shrinkage简单理解
---需要各位对ols有基础认识---
在最初接触线性回归时,我们都知道ols方法的评判标准是让损失函数最小。也有各种各样的指标来衡量,最简单的就是RSS。但与此同时,也出现了一个问题,人们发现只要往进加自变量(或者说控制变量)RSS就会不断减小,但显然此时估计出来的系数β已经是没有意义的了。
为了规避这种情况,人们想到了改进衡量指标。从RSS到(把自变量个数考虑进去,自变量的增加对于后者是不利的)。为的就是筛选出真正有意义的自变量。可以表述为“对损失函数加入惩罚项,使得训练求解参数过程中会考虑到自变量的个数,加入无意义的变量后,对于模型改进作用不明显甚至会削弱。”通过前后对比帮助学者决定要不要加这个新的变量。
而机器学习中的特征缩减技术(shrinkage)也是异曲同工。“通过对损失函数(即优化目标)加入惩罚项,使得训练求解参数过程中会考虑到系数的大小,通过设置缩减系数(惩罚系数),会使得影响较小的特征的系数衰减到0,只保留重要的特征。”缩减系数法,顾名思义,就是把表现不佳的变量的系数β缩减为0(或近似0)。
相比于每加一个新变量都要前后对比一下,私以为shrinkage显得智能许多。
shrinkage分类介绍
常用的缩减系数方法有lasso(L1正则化),岭回归(L2正则化)。
回归中无用变量可粗分为两种,一种是完全无用的,又称为噪声;另一种,是有用,但与其他变量的用处重叠了,那么在这些相关联的变量中保留一个最好的就行。对应缩减系数目的也是两种:
1.消除噪声变量(变量也可称特征(其实是笔者自己分不太清场合),消除噪声特征)
2.筛选相关变量
lasso与岭回归各有侧重,lasso对于相关变量的消除效果很差,对于无关变量效果很好(能正好把系数β消减为0);岭回归能识别出相关的特征(对于相关的两个特征,倾向于一个特别大,另一个接近0,起到了消除相关特征的效果),但不会将无关自变量的系数正好收缩到 0。
另一个常用的shrinkage是弹性网回归,其实就是结合了lasso和岭回归。
结尾
本文旨在提供一些粗浅的理解,搭建一个框架,更详细的理论见:
机器学习:特征缩减技术(shrinkage): lasso和岭回归
Lasso—原理及最优解 - 风磐的文章 - 知乎 https://zhuanlan.zhihu.com/p/116869931
ISLR读书笔记十一:模型选择——收缩法(shrinkage methods) - Xiaowei的文章 - 知乎 https://zhuanlan.zhihu.com/p/264885621
弹性网络回归算法(Elastic Net Regression Algorithm) - Steven陈嘉辉的文章 - 知乎 https://zhuanlan.zhihu.com/p/527460640