降维（未完成记得继续学）

最新推荐文章于 2023-04-17 17:49:41 发布

想守护令人心疼的美好

最新推荐文章于 2023-04-17 17:49:41 发布

阅读量733

点赞数

文章标签：降维

本文链接：https://blog.csdn.net/qq_43661545/article/details/103245040

版权

摘自 https://blog.csdn.net/weixin_39541558/article/details/80053831
整理以后学习方便使用。
特征降维，有时候也称之为特征抽取（用于降维的特征选择方法）或数据压缩，因为现实生活中产生的数据是越来越多，数据压缩技术可以帮助我们对数据进行存储和分析。
在特征降维技术中 PCA 主成分分析是最为经典和实用的特征降维技术，在图像识别方面表现的也很突出。
通常处理的数据是多维的，算法的时间复杂度与维数成指数级增加。维数达上千万维，称为维数灾难，往往就需要进行降维处理。
作用：数据降维：

1.使数据集更容易使用
2.降低算法的计算开销
3.去除噪声
4.减轻过拟合
5.易于获取有价值的信息
如果我们对领域特征比较熟悉，可以对特征加权，可以说特征加权是一种保留或删除特征的办法。特征越重要，所赋予的权值就越大，而不太重要的特征赋予较小的权值。该法在很多模型中均使用了，如 svm 中对每一个特征都赋予了一个权值。
降维的分类
数据降维分为特征选择和特征提取两种方法，此文介绍的是特征提取方法，即经已有特征的某种变换获取约简特征。
特征提取：
用变换（映射）的方法，把原始特征变换为较少的新特征。由原始数据创建新的特征集称为特征提取。比如照片的集合，按照照片是否包含人脸分类提取一些特征。
第一部分，线性降维方法
假设数据集采样来自高维空间的一个全局线性的子空间，即构成数据的各变量之间是独立无关的。
···通过特征的线性组合来降维
···本质上是把数据投影到低维线性子空间
···线性方法相对比较简单且容易计算
···适用于具有全局线性结构的数据集
一.【PCA】主成分分析
基本思想：构造原变量的一系列线性组合形成几个综合指标，以去除数据的相关性，并使低维数据最大程度保持原始高维数据的方差信息。
主成分个数的确定：
贡献率：第i个主成分的方差在全部方差中所占比重，反映第i个主成分所提取的总信息的份额。
累计贡献率：前k个主成分在全部方差中所占比重
主成分个数的确定：累计贡献率>0.85
相关系数矩阵or协方差阵？
当涉及变量的量纲不同或取值范围相差较大的指标时，应考虑从相关系数矩阵出发进行主成分分析；
对同度量或取值范围相差不大的数据，从协方差阵出发.
相关系数矩阵消除了量纲的影响。
很神奇且复杂。
二.【MDS】多维尺度分析
当 n 个研究对象之间的相似性（或距离）给定时，确定这些对象在低维空间中的表示，并使其尽可能与原先的相似性（或距离）“大体匹配”，使得由降维所引起的任何变形达到最小。
将研究对象在一个低维（二维或三维）的空间形象地表示出来（感知图），简单明了地说明各研究对象之间的相对关系。

第二部分，非线性降维方法

数据的各个属性间是强相关的
1、【流形学习】

流形是线性子空间的一种非线性推广，流形学习是一种非线性的维数约简方法
假设：高维数据位于或近似位于潜在的低维流行上
思想：保持高维数据与低维数据的某个“不变特征量”而找到低维特征表示
以不变特征量分为：
·····Isomap：测地距离
·····LLE：局部重构系数
·····LE：数据领域关系

2、【ISOMAP】等距特征映射

基本思想：通过保持高维数据的测地距离与低维数据的欧式距离的不变性来找到低维特征表示
测地距离：离得较近的点间的测地距离用欧氏距离代替；离得远的点间的测地距离用最短路径逼近

3、【LLE】局部线性嵌入

假设：采样数据所在的低维流形在局部是线性的，即每个采样点可以用它的近邻点线性表示

基本思想：通过保持高维数据与低维数据间的局部领域几何结构，局部重构系数来实现降维
说的是些啥暂且看不懂
预感到将要花很长时间掌握降维

总结什么时候使用哪种降维技术
缺失值比率：如果数据集的缺失值太多，我们使用这种方法来减少变量的数量。我们可以删除其中包含大量缺失值的变量
低方差过滤器：我们采用这种方法从数据集中识别并删除常量变量。目标变量不会受到方差低的变量的过度影响，因此可以安全地删除这些变量
高相关性过滤器：一对具有高相关性的变量会增加数据集中的多重共线性。因此，我们可以使用此技术找到高度相关的特征并将其相应地删除
随机森林：这是最常用的技术之一，它告诉我们数据集中存在的每个特征的重要性。我们可以找到每个功能的重要性并保留最重要的功能，从而减少尺寸
后向特征消除和前向特征选择技术都需要大量的计算时间，因此通常用于较小的数据集
因子分析：此技术最适用于我们具有高度相关的变量集的情况。它根据变量的相关性将变量划分为不同的组，并用一个因子表示每个组
主成分分析：这是处理线性数据的最广泛使用的技术之一。它将数据分为一组组件，这些组件试图解释尽可能多的方差
独立组件分析：我们可以使用ICA将数据转换为独立组件，从而使用更少的组件数来描述数据
ISOMAP：当数据为高度非线性时，我们使用此技术
t-SNE：当数据是高度非线性的时，此技术也很好用。它也非常适合可视化
UMAP：此技术适用于高维数据。与t-SNE相比，其运行时间更短