维数灾难与Lasso回归

维数灾难
高维数据:指数据维度很高,甚至远大于样本量的个数。
高维数据的表现是:空间中的数据非常稀疏,与空间的维数相比样本量总是显得非常少。在使用OneHotEncoding在构建词袋模型时,非常容易产生稀疏矩阵。
维数灾难:这种从低维到高维扩充的过程中碰到的最大的问题就是维数的膨胀,即我们所说的维数灾难。随着维数的增长,分析所需的空间样本数会呈指数增长。

维数从低维到高维的表现:

  1. 需要更多的样本,样本随着数据维度的增加呈指数型增长
  2. 数据变得更加稀疏,导致维度灾难
  3. 在高维数据空间中,预测将变得不再容易
  4. 容易导致模型过拟合

解决维数灾难所带来过拟合的方式:

  1. 增加样本量
  2. 减小样本特征(数据降维)

数据降维的常见方法:

  1. 主成分分析
  2. 岭回归(L2正则,因为惩罚项是lambda*beta的平方)
  3. Lasso回归(L1正则,因为惩罚项是lambda*beta的绝对值)

主成分分析:一种数据降维方法,出发点是整合原本单一变量来得到一组新的综合变量,综合变量意义丰富且互不相关,综合变量里包含了原变量大多数信息(通常保留原变量里80%左右的信息,剔除剩余对Y解释性较低的20%信息)。主成分分析是在保留所有原变量的基础上,通过原变量线性组合得到主成分,选取少数主成分可保留原变量里绝大部分信息,这样可以用少数几个主成分代替原变量,从而达到降维的目的。
注意:主成分分析法只适用于空间维度小于样本量(d<n)的情况,当数据空间维度很高时,将不再适用。针对这种情况,其实可以考虑先用随机森林或者决策树的方式选取部分维度,在基于这些新选取的部分维度再用主成分分析进行降维。

岭回归和lasso回归是为了解决过拟合问题,具体的它是为了解决特征数多,且特征之间相关的问题
s://img-blog.csdnimg.cn/20190925193158945.png?x-oss-
岭回归通过增加一个lambda的二次项,来构建微扰,从而在方差和偏差之间达到一个平衡

微扰理论?
在这里插入图片描述
在这里插入图片描述
岭回归系数选择:
喇叭口处,且在喇叭口处部分系数被正则为0; 上图里的每条线是通过十则交叉验证所画出

Lasso是一种数据降维方法,它不单单适用于线性情况,也适用于非线性情况。Lasso是基于惩罚方法对样本数据进行变量选择,通过将原本的系数进行压缩,将原来很小的系数直接压缩至0,从而将这部分系数所对应的变量视为非显著性变量,将不显著的变量直接舍弃。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
lasso回归模型:在平方误差基础上增加了L1正则
lasso回归和岭回归的不同在于损失函数在theta=0处是不可导(因为lasso回归是取了绝对值项),故传统的基于梯度的方法不能直接用于损失函数的求解

**岭回归和lasso回归的主要区别

  1. 虽然岭回归也对变量系数进行了压缩,但是它不会将系数直接压缩到0,从而保留了所有变量;而lasso回归是可以直接将一些变量系数压缩到0,从而实现了降维的目的**

在这里插入图片描述左图是lasso方法,右图是岭回归方法。
以二维空间举例,两个图对应于两种方法等高线与约束域。红色代表随lambda变化得到残差平方和,beta为椭圆中心点,对应普通线性模型最小二乘估计。左右两侧区别在于约束域,即对应蓝色区域。

参考链接:
https://blog.csdn.net/Joker_sir5/article/details/82756089

https://blog.csdn.net/xiaozhu_1024/article/details/80585151

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值