多元统计之主成分分析(PCA)

1、基本思想

目标:在保证数据信息丢失最少的前提下,将原来众多具有相关性的指标转化为少数几个相互独立的综合指标。

作用:(1)、解决多重共线性。(2)、将高维数据进行降维处理。

2、数学模型

如下所示数学模型,X1-XP为原始指标,F1-FP为新的主成分,每一个主成分都是原始指标的线性组合,充分反映原始指标的信息,并且相互独立。


模型需要满足的条件:

(1)每个主成分与原始变量的系数的平方和为1。

(2)主成分之间相互独立,主成分之间的协方差为0。

(3)按照主成分的方差依次递减,即按照主成分的重要程度(包含信息量多少)依次递减。

3、几何直观

投影、旋转坐标轴:

旋转的目的:为使原始数据在F1上投影的离散程度最大,即F1的方差最大。

投影的离散化程度越大,即投影误差越小。F1是可以最小化投影误差的平方的方向,描述数据的主要变化。F2是与F1垂直,且除去F1这个方向外,可以最小化投影误差的平方的方向。即椭圆的长轴描述了数据的主要变化,短轴描述了数据的次要变化。

如我们的原始数据为X1和X2两维,可考虑将数据降为1维F1,舍去了次要的一维。

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值