一文读懂主成分分析法（PCA）

最新推荐文章于 2025-04-08 20:09:22 发布

yvestine

最新推荐文章于 2025-04-08 20:09:22 发布

阅读量4.8k

点赞数 10

分类专栏：数学建模文章标签： python matlab PCA

本文链接：https://blog.csdn.net/m0_74259787/article/details/144919035

版权

数学建模专栏收录该内容

9 篇文章

订阅专栏

主成分分析法（PCA）

主成分分析法（PCA）

主成分分析法（PCA）

主成分分析的基本思想

PCA是1901 年Pearson在研究回归分析时附带提出的，其数学基础是在1933 年由Hotelling奠定。
由于各种量测到数据通常是以矩阵的形式记录、表达和存储的，实际中的很多数据信息往往是重叠与冗余的。从线性代数的观点来看，就是这些数据矩阵中存在相关的行或列。因此需要对其进行处理和提炼，抽取出有意义、独立的变量。
主成分分析(Principal Component Analysis, 简称PCA)是一种常用的基于变量协方差矩阵对信息进行处理、压缩和抽提的有效方法。它把原有的多个指标转化成少数几个代表性较好的综合指标，这少数几个指标能够反映原来指标大部分的信息（85%以上），并且各个指标之间保持独立，避免出现重叠信息。主成分分析主要起着降维和简化数据结构的作用。

在这里插入图片描述

为什么要进行主成分分析
压缩变量个数，用较少的变量去解释原始数据中的大部分变量，剔除冗余信息。即将许多相关性很高的变量转化成个数较少、能解释大部分原始数据方差且彼此互相独立的几个新变量，也就是所谓的主成分。
消除原始变量间存在的共线性，克服由此造成的运算不稳定、矩阵病态等问题。

主成分分析试图在力保数据信息丢失最少的原则下，对这种多变量的截面数据表进行最佳综合简化，也就是说，对高维变量空间进行降维处理
很显然，系统在一个低维空间要比在一个高维空间容易得多。

维数对分类的影响
在这里插入图片描述

在实际应用中，当特征个数增加到某一个临界点后，继续增加反而会导致分类器的性能变差。

数据降维
在这里插入图片描述

主成分的计算

考虑这样一个问题，有n个d维的样本 $x_1, x_2, x_3, …, x_n$ ,如何能够用仅仅一个d维的向量 $x_0$ 来最好代表这n个样本，或者更确切的说，我们希望这个代表向量 $x_0$ 与各个样本 $x_k（k=1,2…..,n）$ 的距离的平方和越小越好。
在这里插入图片描述

只要把向量 $x_k$ 向通过样本均值的直线w作垂直投影就能得到最小平方误差的结果。