自学知识积累之PCA主成分分析

PAC,全称为主成分分析,是一种常用的数据分析算法,主要用于高维数据的降维,同时保持数据集中的对方差贡献最大的特征

如图在原坐标系的基础上进行降维获得一个新的坐标系,来保存信息(在保存原维度的数据的情况下通过对数据的降维处理来减少数据量的复杂性)

再通过计算协方差的找到主成分特征(特征集和特征向量)

在新的坐标系统中,原始数据的大部分方差都包含在第一主成分中,剩余的方差依次包含在第二主成分、第三主成分等等中。(根据它们对数据方差的贡献大小排序的,第一主成分对方差的贡献最大,第二主成分次之,以此类推。)

通过保留前k个主成分,我们可以得到一个对原始数据有着最大方差的k描述。

这个是协方差特征值的变换通过不断拉伸旋转来计算找到最大方差

基本流程就这些总体分为:

1数据标准化:(1去中心化,2数据进行标准化处理,使得每个特征的平均值为0,标准差为1。)

2计算协方差矩阵:(协方差矩阵可以反映各个特征之间的相关性。在PCA中,我们希望找到能够最大化方差(即信息)的新特征,这些新特征就是原始数据的主成分。)

3. 计算协方差矩阵的特征值和特征向量:特征向量(主成分)定义了原始数据在新空间中的方向,特征值决定了其在新空间中的大小,即新特征的方差。

4. 选择主成分:按照特征值从大到小的顺序排列所有的特征向量,选择前k个特征向量,这就构成了一个投影矩阵。k的选择取决于我们希望保留的信息量,通常通过观察累积解释方差比率来确定。

5. 通过投影矩阵将原始数据转换到新的空间:将原始数据与投影矩阵相乘,得到转换后的数据,这些数据就是原始数据在选择的主成分上的投影。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值