主成分分析系列:
目录
一:主成分分析简述
主成分分析是多元统计分析中重要的降维与分析评价方法;多元分析(multivariate analyses)是多变量的统计分析方法,是数理统计中应用广泛的一个重要分支。由于变量的相关性,不能简单地把每个变量的结果进行汇总,这是多变量统计分析的基本出发点。
主成分分析(principal component analysis)是1901年Pearson对非随机变量引 入的,1933年Hotelling将此方法推广到随机向量的情形,主成分分析和聚类分析有很 大的不同,它有严格的数学理论作基础。
主成分分析的主要目的是希望用较少的变量去解释原来资料中的大部分变异,将我 们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量。通常是选出比原始 变量个数少,能解释大部分资料中的变异的几个新变量,即所谓主成分,并用以解释资 料的综合性指标。由此可见,主成分分析实际上是一种降维方法。 主成分分析试图在力保数据信息丢失少的原则下,对多变量的截面数据表进行最佳综合简化,即对高维变量空间进行降维处理。
二:主成分分析法的步骤
1)对原始数据进行标准化处理
其中 , 即
分别为第j个指标的样本均值和标准差。
2)计算相关系数矩阵R
3)计算特征值和特征向量
特征值要由大到小排序
4)选择 p ( p ≤ m )个主成分,计算综合评价值
h
matlab实现主成分分析的pcacov( )函数
clc,clear
load gj.txt %把原始数据保存在纯文本文件gj.txt中
gj=zscore(gj); %数据标准化
r=corrcoef(gj); %计算相关系数矩阵
[x,y,z]=pcacov(r);
f=repmat(sign(sum(x)),size(x,1),1);
x=x.*f;
df=gj*x(:,1:4)
tf=df*z(1:4)/100;
[stf,ind]=sort(tf,'descend')
主成分分析系列: