主成分PCA分析
主成分分析 (一): 基本思想与主成分估计方法_主成分分析怎么看主成分_wamg潇潇的博客-CSDN博客(概念,例题答案)
主成分分析法(三):计算步骤_主成分分析法步骤_wamg潇潇的博客-CSDN博客(matlab实现主成分分析的pcacov( )函数)
主成分分析法(PCA)及MATLAB实现_matlab的主成分分析可以怎么做_某只旺仔的博客-CSDN博客(里面例题代码更详细点)
链接一
链接二
一、简介
目的是希望用较少的变量去解释原来资料中的大部分变异,把相关性很高的变量转化成彼此相互独立或不相关的变量,是一种降维方法。 在描述数据集中的样本时,样本又叫作实例、观测,样本可以由多个属性来描述,这些又可以称为特征、指标、变量、维度,比如描述某企业的员工信息时,数据集就是所有员工信息,每个员工就是一个样本,用来描述样本信息的性别、年龄、工龄、籍贯、工资....就是特征,这些指标可能有某种程度上的相关关系,就会存在信息冗余,就需要特征选择,也就是降维,常用的降维方法有主成分分析pca, SVD奇异值分解,逐步回归。。。
主成分分析(principal component analysis)是1901年Pearson对非随机变量引入的,1933年Hotelling将此方法推广到随机向量的情形,主成分分析和聚类分析有很大的不同,它有严格的数学理论作基础。主成分分析的主要目的是希望用较少的变量去解释原来资料中的大部分变异,将我们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量。通常是选出比原始变量个数少,能解释大部分资料中的变异的几个新变量,即所谓主成分,并用以解释资 料的综合性指标。由此可见,主成分分析实际上是一种降维方法。
二、基本思想和方法
2 注意事项
1)主成分分析的结果受量纲的影响,由于各变量的单位可能不一样,如果各自改变量纲,结果会不一样,这是主成分分析的大问题,回归分析是不存在这种情况的, 所以实际中可以先把各变量的数据标准化,然后使用协方差矩阵或相关系数矩阵进行分析。
2)为使方差达到大的主成分分析,所以不用转轴(由于统计软件常把主成分分 析和因子分析放在一起,后者往往需要转轴,使用时应注意)。
3)主成分的保留。用相关系数矩阵求主成分时,Kaiser主张将特征值小于1的主成分予以放弃(这也是SPSS软件的默认值)。
4)在实际研究中,由于主成分的目的是为了降维,减少变量的个数,故一般选取 少量的主成分(不超过5或6个),只要它们能解释变异的70%~80%(称累积贡献率) 就行了。 下面我们直接通过主成分估计(principle estimate)进一步阐述主成分分析的基 本思想和相关概念。
三、主成分估计(具体内容见链接一)
主成分估计(principal component estimate)是Massy在1965年提出的,它是回归系数参数的一种线性有偏估计(biased estimate),同其它有偏估计,如岭估计(ridge estimate)等一样,是为了克服小二乘(LS)估计在设计矩阵病态(即存在多重共线性) 时表现出的不稳定性而提出的。
主成分估计采用的方法是将原来的回归自变量变换到另另一组变量,即主成分,选择其中一部分重要的主成分作为新的自变量(此时丢弃了一部分,影响不大的自变量, 这实际达到了降维的目的),然后用小二乘法对选取主成分后的模型参数进行估计, 后再变换回原来的模型求出参数的估计。
单参数主成分估计
理论上表明:主成分估计在设计阵病态时优于LS估计,但(31)在特征值为1的附 近存在跳跃,会影响计算的稳定性,杨虎在1989年给出的单参数主成分估计解决了这个 问题。
例题(链接一附matlab代码)
三、主成分分析法的步骤
1、对原始数据进行标准化
2、计算相关系数矩阵R
3、计算特征值和特征向量
4、选择p个主成分,计算综合评价值