维数灾难与Lasso回归

最新推荐文章于 2024-03-27 20:19:13 发布

tomwang0322

最新推荐文章于 2024-03-27 20:19:13 发布

阅读量839

点赞数

本文链接：https://blog.csdn.net/weixin_41636030/article/details/101325176

版权

维数灾难
高维数据：指数据维度很高，甚至远大于样本量的个数。
高维数据的表现是：空间中的数据非常稀疏，与空间的维数相比样本量总是显得非常少。在使用OneHotEncoding在构建词袋模型时，非常容易产生稀疏矩阵。
维数灾难：这种从低维到高维扩充的过程中碰到的最大的问题就是维数的膨胀，即我们所说的维数灾难。随着维数的增长，分析所需的空间样本数会呈指数增长。

维数从低维到高维的表现：

需要更多的样本，样本随着数据维度的增加呈指数型增长
数据变得更加稀疏，导致维度灾难
在高维数据空间中，预测将变得不再容易
容易导致模型过拟合

解决维数灾难所带来过拟合的方式：

增加样本量
减小样本特征（数据降维）

数据降维的常见方法：

主成分分析
岭回归（L2正则，因为惩罚项是lambda*beta的平方）
Lasso回归（L1正则，因为惩罚项是lambda*beta的绝对值）

主成分分析：一种数据降维方法，出发点是整合原本单一变量来得到一组新的综合变量，综合变量意义丰富且互不相关，综合变量里包含了原变量大多数信息（通常保留原变量里80%左右的信息，剔除剩余对Y解释性较低的20%信息）。主成分分析是在保留所有原变量的基础上，通过原变量线性组合得到主成分，选取少数主成分可保留原变量里绝大部分信息，这样可以用少数几个主成分代替原变量，从而达到降维的目的。
注意：主成分分析法只适用于空间维度小于样本量（d<n）的情况，当数据空间维度很高时，将不再适用。针对这种情况，其实可以考虑先用随机森林或者决策树的方式选取部分维度，在基于这些新选取的部分维度再用主成分分析进行降维。

岭回归和lasso回归是为了解决过拟合问题，具体的它是为了解决特征数多，且特征之间相关的问题
s://img-blog.csdnimg.cn/20190925193158945.png?x-oss-
岭回归通过增加一个lambda的二次项，来构建微扰，从而在方差和偏差之间达到一个平衡

微扰理论？
在这里插入图片描述

岭回归系数选择：
喇叭口处，且在喇叭口处部分系数被正则为0; 上图里的每条线是通过十则交叉验证所画出

Lasso是一种数据降维方法，它不单单适用于线性情况，也适用于非线性情况。Lasso是基于惩罚方法对样本数据进行变量选择，通过将原本的系数进行压缩，将原来很小的系数直接压缩至0，从而将这部分系数所对应的变量视为非显著性变量，将不显著的变量直接舍弃。
在这里插入图片描述

lasso回归模型：在平方误差基础上增加了L1正则
lasso回归和岭回归的不同在于损失函数在theta=0处是不可导（因为lasso回归是取了绝对值项），故传统的基于梯度的方法不能直接用于损失函数的求解