降维方法总结及python实现

博客介绍了降维的重要性,详细讲解了PCA的原理和选择特征向量的策略,探讨了PCA的去中心化原因,并提到了PCA在有标签数据上的局限性。接着,文章介绍了非线性降维方法TSNE以及自编码器,对比了自编码器与PCA的异同,强调自编码器在非线性变换和深度学习中的应用。最后,讨论了有监督降维方法LDA的目标和作用。
摘要由CSDN通过智能技术生成

为什么要降维?
高维情形下,样本数据稀疏,距离计算困难。
为什么能进行降维?
收集的数据虽是高维但与学习任务密切相关的也许仅仅是某个低维分布

无监督降维:

PCA
最大重构性:找到一个超平面使得样本点在这个超平面的投影尽量分开。
PCA也可以看作是逐一筛选方差最大方向;对协方差矩阵XX^T特征分解,取最大特征值及其特征向量;在去掉该特征值以及特征向量后,继续取最大特征值;
关于PCA的几个问题:

  1. 投影方向应该取多少才好?
    根据博客https://blog.csdn.net/michael__corleone/article/details/79680183中所说,选取特征值和占总特征值的80%

  2. PCA为什么需要去中心化?
    根据方差公式,如果没有事先进行去中心化后,在计算过程中也会去减去均值,增大计算复杂度

注意点:(1)特征根的大小决定了我们感兴趣信息的多少。即小特征根往往代表了噪声,但实际上,向小一点的特征根方向投影也有可能包括我们感兴趣的数据; (2)特征向量的方向是互相正交(orthogonal)的,这种正交性使得PCA容易受到Outlier的影响(3)PCA适用于非监督的学习的不带标签(带标签的样本,往往用LDA降维)的样本降维,特别是小样本问题。广义认为,这类样本属性之间的相关性很大,通过映射,

  • 4
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值