(statistic)主成分分析数据的标准化与非标准化的对比分析

//转载

http://wenku.baidu.com/link?url=dlajAUuy-t578nO3zPXzNiqqyCnkDFl9bYOgH6zfJ79pNvdkK-P58mjc905pcCSaAGKbZL7HpXdsBZW2C1Asxt__Fd4ccWuKKwj8dLSUHi7

这里只转结论:


对于随机变量X1,X2....而言, 其协方差矩阵或相关矩阵正是对个变量离散程度与变量之间的相关程度的信息的反映,而相关矩阵是将原始变量标准化后的协方差矩阵。


本文所要讨论的主成分分析数据的标准化与非标准化的对比分析本质上就是对原始变量的协方差矩阵以及相关矩阵求解主成分进行对比分析。


一般而言,对于度量单位不同的指标或是取值范围彼此差异非常大的指标不直接由其协方差矩阵出发进行主成分分析,而应该考虑对数据的标准化。在本文中采用的例子就是度量单位不同,有万人、万吨、万元、亿元,而数据见的差异性也非常大,小则65.49大则13618179,。因此在用协方差矩阵求解主成分时存在协方差矩阵中数据的差异性很大。在后面提取主成分时发现,只提取了一个主成分,而此时并不能将所有的变量都解释到,这就没有真正起到降维的作用。但是在用相关矩阵求解主成分时发现,提取了两个主成分后可以很好地将所有变量都解释了,进而起到降维的作用,这就实现主成分分析的最终目的。  


但是对原始数据进行标准化后更倾向于各个指标的作用在主成分分析夫人构成中相等。对于数据取值范围不大或是度量单位相同的指标进行标准化处理后,其主成分分析的结果与仍由协方差矩阵出发求得的结果有较大区别。这是因为对数据标准化的过程实际上就是抹杀原是变量离散程度差异的过程,标准化后方差均为1,而实际上方差是对数据信息的重要概括形式,也就是说,对原始数据进行标准化后抹杀了一部分重要信息,因此才使得标准化后各变量在主成分构成中的作用趋于相等。因此,对同度量或是取值范围在同量级的数据,还是直接从协方差矩阵求解主成分为宜。

展开阅读全文

没有更多推荐了,返回首页