主成分分析

描述性:
1.单变量的均值(mean)
2.方差(variance) 标准差 变量信息量的大小
3.两个变量的协方差(covariance) 若协方差为零,称这两个变量不相关。如果x和y是统计独立的,二者之间的协方差是零。
4.相关系数(correlation coefficient) [-1,1] >0.7 <0.4
5.P维随机向量的协方差矩阵 对称、半正定(可以对角化,n个正交特征向量

标准化:
1.正态标准化
从而使得矩阵的每一列均值为0,方差为1
数据取值范围(-3,3)
2.标准化(归一化)
[0,1]

第k个主成分方差贡献率
前k个主成分的累积方差贡献率 85%

主成分分析的数学本质:将多个相关变量(指标)转化为线性无关的几个(少数)综合指标(主成分),从而实现维数约简。

实现步骤:
无量纲化
明确目的是降维还是综合评价(正向化处理)
核心内容:数据约简、变量重要性排序、综合评价、主成分命名

step1:将原始数据标准化、无量纲化
step2:建立变量的相关系数阵R或协方差矩阵 Σ \Sigma Σ。(若是正态标准化,两者相同)
step3:求得矩阵特征根及相应的单位特征向量
step4:写出主成分表示及主成分得分(Fi的值)
step5:确定主成分个数
step6:计算第i个样本观察值综合评价得分
step7:主成分解释和命名

1.首先数据标准化
clear
load czsr2003.txt; %载入数据文件
[n,p]=size(czsr2003); %获取行列数据
MEAN=mean(czsr2003); %按列求各变量的均值
STD=std(czsr2003); %按列求各变量的标准差转换成n x p均值矩阵
MEAN=ones(n,p)*diag(MEAN); %转换成n x p均值矩阵
STD=ones(n,p)*diag(STD); %转换成n x p标准差矩阵
X=(czsr2003-MEAN)./STD; %原始数据标准化

2.建立变量的协方差矩阵
R=cov(x);R=corrcoef(x);

3.求特征根及相应的单位特征向量
[V,D]=eig®;

4.计算主成分方差贡献率和累计方差贡献率
DD=[]; %建立空间向量用于按降序存储特征值
for i=p:-1 :1
DD=[DD;D(i,i)];
end
注释:此次要注意eig函数的输出D中特征值的排列顺序,特征值对角矩阵D改写为列向量DD
OFFER=DD/sum(DD); %计算各主成分方差贡献率
cumOFFER=cumsum(DD)/sum(DD);
注释:计算各主成分的累计方差贡献率

5.根据给定阈值和累积方差贡献率确定主成分个数
OUTCOME=[DD,OFFER,cumOFFER]

6.输出主成分系数,这里选择三个主成分
PCACOV=V(:,end: -1:end-2)
注释:输出正交单位化的特征向量矩阵V的后3列

7.主成分解释和命名

8.主成分得分和综合得分

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值