常用的数据降维方法总结(更新中)

      最近在了解一些行业分析指标设计方面的问题, 过程中看到了一些通用的方法,比如说降维,因此,浏览了一些网上的博文和手头的书籍,初步对降维方法做了一个汇总。还有很多需要完善的地方,根据后续学习,再来补充!

 


 数据降维的好处

  • 便于数据可视化;
  • 减少数据维度和需要的存储空间;
  • 节约模型训练计算时间;
  • 去掉冗余变量,提高算法的准确度;
数据降维方法总结
方法细分类别方法思想优点缺点
线性方法PCA(Pricipal Component Analysis)数据经过某种投影,或者说乘以一个矩阵之后,得到的新的矩阵在所投影的维度上数据的方差最大,以此使用较少的数据维度,同时保留住较多的原数据点的特性。1.最小误差;
2.提取了主要信息
1.可能投影以后对数据的区分作用并不大,反而可能使得数据点揉杂在一起无法区分;
2.计算协方差矩阵,计算量大
LDA(Discriminant Analysis)往线性判别超平面的法向量上投影,使得区分度最大(高内聚,低耦合)简单易于理解计算较为复杂
因子分子   
非线性方法核方法(核+线性)KPCA通过Kernel trick将PCA投影的过程通过内积的形式表达出来。将高维向量ϕ(x)与对应特向β的内积转换成低维的核函数表示。具有核方法的优点需要对所有样本求和,计算开销较大
KFDA   
二维化和张量化(二维+线性)二维主分量分析 1.计算效率高;
2.有些数据二维降维效果明显好于一维降维
原理机制研究不透彻
二维线性判别分析 
二维典型相关分析 
流形学习MDS(Multiple Dimensional Scaling 多维缩放)原始空间中样本之间的距离在低维空间中保持不变 假设流形的存在,部分解决了高维数据分布的问题 假设流形的存在,不能总是适合数据特点
ISOMap(等距映射)一种非迭代的全局优化算法。ISOMap对MDS进行改造,用测地线距离(曲线距离)作为空间中两点距离,原来是用欧氏距离,从而将位于某维流形上的数据映射到一个欧氏空间上。1.适合于内部平坦的低维流形;1.不适合于学习有较大内在曲率的流形;2.样本难以将其映射到低维空间中,因此需要训练一个回归学习器来对新样本的低维空间进行预测建立近邻图时,要控制好距离的阈值,防止短路和断路。
LE(Laplacian Eigenmaps,拉普拉斯特征映射)一种基于图的降维算法,它希望相互间有关系的点(在图中相连的点)在降维后的空间中尽可能的靠近,从而在降维后仍能保持原有的数据结构。  
LLE(Locally Linear Embedding 局部线性嵌入)保持邻域内样本之间的线性关系  
  • 2
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

积跬步,慕至千里

你的鼓励将是我创作的最大动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值