统计学习方法-主成分分析（Principal Component Analysis ,PCA ）

最新推荐文章于 2025-03-10 20:52:25 发布

汗青传奇

最新推荐文章于 2025-03-10 20:52:25 发布

阅读量1.1w

点赞数

分类专栏： Datamining 统计学习线性代数文章标签：主成分分析降维矩阵变化协方差矩阵统计学习

本文链接：https://blog.csdn.net/u010140338/article/details/12083903

版权

本文介绍了主成分分析PCA的原理，从统计学的基础概念出发，讲解了协方差矩阵的计算及其在PCA中的作用。PCA作为一种降维工具，旨在通过线性变换将高维数据投影到低维空间，同时保持数据的主要特征。通过特征值分解协方差矩阵，选择最大特征值对应的特征向量作为新坐标系，实现数据的降噪和去冗余。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 主成分分析 （ Principal Component Analysis ， PCA ）

是一种掌握事物主要矛盾的统计分析方法，它可以从多元事物中解析出主要影响因素，揭示事物的本质，简化复杂的问题。计算主成分的目的是将高维数据投影到较低维空间.

2. 协方差矩阵：（reference：http://pinkyjie.com/2010/08/31/covariance/）

统计学的基本概念

学过概率统计的孩子都知道，统计里最基本的概念就是样本的均值，方差，或者再加个标准差。首先我们给你一个含有n个样本的集合 $X=\{{X_{1},\ldots,X_{n}}\}$ ，依次给出这些概念的公式描述，这些高中学过数学的孩子都应该知道吧，一带而过。

均值： $\bar{X}=\frac{\sum_{i=1}^n X_{i}}{n}$
标准差： $s=\sqrt{\frac{\sum_{i=1}^n (X_{i}-\bar{X})^2}{n-1}}$
方差： $s^2=\frac{\sum_{i=1}^n (X_{i}-\bar{X})^2}{n-1}$

很显然，均值描述的是样本集合的中间点，它告诉我们的信息是很有限的，而标准差给我们描述的则是样本集合的各个样本点到均值的距离之平均。以这两个集合为例，[0，8，12，20]和[8，9，11，12]，两个集合的均值都是10，但显然两个集合差别是很大的，计算两者的标准差，前者是8.3，后者是1.8，显然后者较为集中，故其标准差小一些，标准差描述的就是这种“散布度”。之所以除以n-1而不是除以n，是因为这样能使我们以较小的样本集更好的逼近总体的标准差，即统计上所谓的“无偏估计”。而方差则仅仅是标准差的平方。【1】

为什么需要协方差？

上面几个统计量看似已经描述的差不多了，但我们应该注意到，标准差和方差一般是用来描述一维数据的，但现实生活我们常常遇到含有多维数据的数据集，最简单的大家上学时免不了要统计多个学科的考试成绩。面对这样的数据集，我们当然可以按照每一维独立的计算其方差，但是通常我们还想了解更多，比如，一个男孩子的猥琐程度跟他受女孩子欢迎程度是否存在一些联系啊，嘿嘿~协方差就是这样一种用来度量两个随机变量关系的统计量，我们可以仿照方差的定义：

$var(X)=\frac{\sum_{i=1}^n (X_{i}-\bar{X})(X_{i}-\bar{X})}{n-1}$