【降维方法】- 实际应用中各降维方法的分析

最新推荐文章于 2022-07-09 23:02:40 发布

yuukilp

最新推荐文章于 2022-07-09 23:02:40 发布

阅读量6.4k

点赞数

分类专栏：数据降维文章标签：数据挖掘数据降维应用预测建模数据预处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014686462/article/details/81634255

版权

数据降维专栏收录该内容

5 篇文章 0 订阅

订阅专栏

实际应用场景下，面对多种数据降维方法，我们应该清楚地了解各降维方法的原理，熟知其优劣，将其合理地应用于需处理的问题中。下面，将从实际应用的角度，对各降维算法逐个进行优劣分析。

PCA

优点：

能够从数据集中提取新的特征（原始特征的线性组合），并且这些特征能够最大程度捕捉数据集中方差较大的特征，同时提取的新特征之间彼此不相关。一些预测模型要求预测变量之间无相关性（弱相关性），以便得到稳定的数值解。

缺点：

非监督的方法，仅捕捉了数据集方差较大的特征，未考虑响应变量，可能利用PCA提取的数据特征与响应变量无关。
预测变量的测量标度要求相同（因为PCA会捕捉变异大的预测变量），并且数据分布相同（数据无偏）。所以在使用进行PCA之前，应该先对有偏的变量进行变换（Box-Cox变换），然后对变量进行中心化和标准化（变换到同一测量标度）。

LDA

线性判别分析（Linear Discriminant Analysis）作为一种监督式的降维方法，同时也用作分类器，它主要思想是：使得对原空间进行投影运算后，类间的样本点数据分布间隔大，而类内样本点数据分布方差小。

优点：

作为有监督的降维方法，它考虑了响应变量的作用，会得到能够区分响应变量的新的特征（也是原始特征的线性组合）。
由于新转化得到的数据为 $X^{'}=P\cdot X$ ，P向量中的这些值的大小可以被理解为每一个预测变量对样本分类的贡献大小，故具有一定的解释性。

缺点：

由于涉及协方差矩阵的求逆运算，这意味着样本量要大于变量个数，且预测变量之间必须是相互独立的。（【样本数：特征数】这个比值低于5时，使用LDA效果会较差）。
不适合对非高斯分布的样本进行降维（由于涉及到由样本计算总体均值和方差的估计）。
优于矩阵计算时候的数学优化，使得降维后的数据维度小于等于K-1。（K为类别个数）
需要对数据进行严格地预处理。标准化预测变量并且移除近零方差变量。

PLS（偏最小二乘法）

PLS作为一种监督式的降维方法，擅长于处理变量之间存在的强相关关系。

提出背景： PLS（偏最小二乘法）来解决那些存在相关预测变量且希望使用线性回归来加以解决的问题。

如果预测变量之间存在强相关关系，那么普通的最小二乘法的解将变得非常不稳定。同时，当预测变量个数大于观测值的个数时，最小二乘法也无法得到SSE最小的唯一的回归系数的解。
使用PCA降维再使用回归分析，由于PCA降维后得到的新的预测变量之间的确不相关，但是PCA无法捕捉与响应变量的关系。

核心思想：

一种监督性的降维方法。
预测变量的PLS线性组合最大化其与响应变量的协方差。即PLS在寻找成分时，不仅要最大程度地概括预测变量的变异性，同时还要使得这些成分与响应变量的相关系数达到最大。

实际应用，需要注意的地方：

数据必须经过预处理，如数据中心化和标准化（保证同一量纲）；
需要通过交叉验证（或其它重抽样的方式）来确定最优成分数；
变量投影重要性（PLS可以直观给出变量重要性）。

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

yuukilp CSDN认证博客专家 CSDN认证企业博客

码龄10年

207: 原创

7万+: 周排名

157万+: 总排名

26万+: 访问

: 等级

4600: 积分

83: 粉丝

81: 获赞

53: 评论

371: 收藏

私信

关注

热门文章

分类专栏

最新评论

使用深度学习进行生存分析
WIXBC: 请问您下载了吗？我也不会下载，小白太难了
使用深度学习进行生存分析
Z09872473: 我最近在复现这个，但是这个库根本就下载不上啊🥹
【论文笔记】CatBoost: unbiased boosting with categorical features
小凉爽&玉米粒: 楼主，我看论文理解了Order TS和Order boosting的意思，但是把他们一起整合到算法2 Building a tree in CatBoost之后的伪代码，我有点看不懂，想问一下您可以帮忙解答一下吗？
【论文笔记】CatBoost: unbiased boosting with categorical features
JavaExploit: 楼主你好，您所分享的文章对我的帮助非常大，非常感谢您的分享，同时在学习的时候，对于Building a tree in catboost伪代码中的一些符号所代表的意思不理解，比如：α、L、grad、leafr(i) ← GetLeaf(xi, Tc, σr) for i = 1..n;∆(i) ← avg(gradr(p) for p : leafr(p) = leafr(i)) for i = 1..n;希望楼主能得到楼主的解惑，非常感谢！
使用深度学习进行生存分析
Rain_Hpu: 那如果在t时刻，有多个人同时死亡，也可以用这个计算风险概率吗

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。