PCA原理及特征相关性分析

PCA(主成分分析)是一种通过找方差最大的方向进行数据降维的方法。累计方差贡献率衡量了主成分保留的信息比例。碎石图用于判断合适的选择主成分数量,而相关性分析关注特征间的关联性。PCA还包括数据的归一化处理,载荷矩阵的计算以及通过特征值和碎石图确定降维的维度。
摘要由CSDN通过智能技术生成

PCA

原理:

找方差最大的方向
1.png

大红色线点之间得距离大,方差会比较大

粉色线点之间得距离小,方差会比较小

大红色就是方差最大的方向??

2.png

3.png
有多少维的数据求出来的特征值就有几个,想降到几维就选取几个特征值(选大的),数据个数不变

累计方差贡献率

因为数据的方差表示了数据波动变化的信息。设想一摞数据的方差为0,那就是完全没有变化,没有研究价值。一般PCA用于降维,降维比然带来信息的损失,所以我们希望能够在减少数据维度的时候尽可能多地保存数据的信息。
可以证明,数据的方差等于协方差所有特征值之和第i个主成分的方差等于协方差矩阵的第i个特征值。实际计算时,特征值从大到小排序,然后从前到后求和就得到累积方差。所以累积方差贡献率的大小表示了当前选择的所有主成分携带原数据的信息的比例

作者:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值