主成分分析法

本文介绍了主成分分析法(PCA),一种通过线性变换降低数据维度的技术。它通过去中心化、找最大方差方向(主成分)、计算协方差矩阵的特征向量来实现降维,并解释了标准化、协方差计算和特征提取的过程。小样例演示了实际应用中的步骤。
摘要由CSDN通过智能技术生成

主成分分析法

PCA

综述:数据降维的方法

可以用一种线性变换的思想去理解,比如二维的一条直线,我们可以通过变换,使得这一条直线落在x或y轴上,达到降维的效果。

如图:二维一条直线

主成分分析法

PCA

综述:数据降维的方法

可以用一种线性变换的思想去理解,比如二维的一条直线,我们可以通过变换,使得这一条直线落在x或y轴上,达到降维的效果。

如图:二维一条直线

如图:变换坐标系

这时候就可以重新定义一下 PCA 的目标:在只保留一个轴时候,使得信息保留最多(二维)

部分知识:

去中心化(把坐标原点放在数据中心)

找坐标系,找到数据方差最大的方向,就是第一主成分。(如果第一主成分不足以表达,就考虑吧选取第二个)

为了有效反映原来信息,第一主成分和第二主成分的协方差为0.以此类推可以获得p个主成分。这些主成分是互不相关,是依次递减的。

累计方差贡献率大于百分之80就可以了,或者特征根大于1就可以了。

?根据线性代数的知识,我们需要一则伸缩,二则旋转,伸缩不是问题

旋转的矩阵R又从何而来?

即是协方差矩阵的特征向量就是R。

协方差定义=

上面是没有经过中心化的协方差公式

下面经过中心化之后,均值已经变成0了,所以的得到公式

=

协方差表示的是两个变量在变化过程中是否同方向变化,还是反方向变化,同向或者反向的程度如何呢?

(二维)

计算步骤

1.假设样本有n个样本,p个指标,可以构成n*p的样本矩阵x

2.标准化处理,计算均值和标准差,进行标准化

3.将上述矩阵进行协方差的计算

求出矩阵R

以上两步可以合成1步

4.借由矩阵R,求出特征值和特征向量(R是半正定矩阵,tr(R)=p)

求出特征向量(以上可以由编程工具计算得出)

5.计算主成分贡献率和累计贡献率。取前百分之八十就可以了

小样例示范

  • 12
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值