t-SNE和主成分分析

 降维,什么是降维,简单说就是将多个特征字段用少数的特征字段来表示,方便对数据的后续分析以及进行2维和3维的可视化。降维的方法有多种,主成分分析、主因子分析、随机森林、决策树、LASSO回归以及t-SNE等,其实降维可以理解成对变量的一种选择。本文不对所有的方法进行介绍,主要介绍一下主成分分析和t-SNE这两种方法。
这里写图片描述
 首先,先介绍主成分分析(PCA),主成分分析的基本思想是研究如何通过原来变量的少数几个线性组合来解释原来变量绝大多数信息的一种多元统计方法。主成分分析的基本理论通过研究原始变量的相关矩阵或协方差矩阵内部结构关系的研究,利用原始变量的线性组合形成几个综合指标(主成分),在保留原始变量主要信息的前提下起到降维与简化问题的作用。一般来说,利用主成分分析得到的主成分与原始变量之间有如下基本关系:
1. 每一个主成分都是各原始变量的线性组合。
2. 主成分的数目大大少于原始变量的数目。(严格说主成分和原始变量的个数是一样的,只是后面根据方差累积贡献率选取的主成分个数是远远少于原始变量的)
3. 主成分保留了原始变量绝大多数信息。
4. 各主成分之间不相关。
  主成分是把p个随机变量的总方差分解为P个不相关的随机变量的方差之和,使得第一个主成分的方差达到最大,第一主成分是以变化最大的方向向量各分量为系数的原始变量的线性函数,最大方差/总方差的比值称为第一主成分的贡献率。这个值越大,表明第一个主成分组合原始变量信息的能力越强。对于主成分个数的选取,就看前k个主成分的方差累积 贡献率达到85%,当所取的主成分的累积贡献率大于85%,就取k。这样是使得原始变量的信息损失不太多,又达到减少变量、简化问题的目的。需要注意的是主成分变换对正交向量的尺度敏感。数据在变换前需要进行归一化处理。同样也需要注意的是,新的主成分并不是由实际系统产生的,因此在进行 PCA 变换后会丧失数据的解释性。如果说,数据的解释能力对你的分析来说很重要

  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值