PCA降维简介

最新推荐文章于 2024-06-22 10:45:30 发布

置顶

小村长

最新推荐文章于 2024-06-22 10:45:30 发布

阅读量4.7w

点赞数 19

分类专栏：机器学习机器学习实战笔记文章标签： pca svd

本文链接：https://blog.csdn.net/Lu597203933/article/details/41544547

版权

PCA（主成分分析）是一种数据降维方法，用于减少计算开销和去除噪声。基本概念包括方差、协方差和协方差矩阵。PCA通过对数据进行线性变换，找到最具区分性的特征。在MATLAB中，可通过`princomp`函数进行PCA计算，包括计算系数、得分和特征值。降维数目k的选择通常基于特征值贡献率。数据预处理如Z-score标准化对PCA效果有影响。PCA降维后，可使用重构方法恢复数据。

摘要由CSDN通过智能技术生成

PCA全称为principal component analysis，即主成成分分析，用于降维。对数据进行降维有很多原因。比如：

1：使得数据更易显示，更易懂

2：降低很多算法的计算开销

3：去除噪声

一：基本数学概念

1：方差

均值太简单了，不说了。方差是各个数据分别与其和的平均数之差的平方的和的平均数，用字母D表示。计算公式如下：

（少了个平方）

其中x^-为均值，也可以表示为EX，则方差计算又可写成：

2:协方差及协方差矩阵

协方差用于衡量两个变量的总体误差情况，可以说方差是协方差的一种特殊情况，即当两个变量是相同的情况

计算公式：

而协方差矩阵是一个矩阵，其每个元素是各个向量元素之间的协方差。是从标量随机变量到高维度随机变量的自然推广。

计算公式：

二：PCA的概念简介

主成分分析（ Principal ComponentAnalysis， PCA）或者主元分析。是一种掌握事物主要矛盾的统计分析方法，它可以从多元事物中解析出主要影响因素，揭示事物的本质，简化复杂的问题。计算主成分的目的是将高维数据投影到较低维空间。给定n个变量的 m 个观察值，形成一个 m*n的数据矩阵， n通常比较大。对于一个由多个变量描述的复杂事物，人们难以认识，那么是否可以抓住事物主要方面进行重点分析呢？如果事物的主要方面刚好体现在几个主要变量上，我们只需要将这几个变量分离出来，进行详细分析。但是，在一般情况下，并不能直接找出这样的关键变量。这时我们可以用原有变量的线性组合来表示事物的主要方面， PCA就是这样一种分析方法。

PCA 主要用于数据降维，对于一系列例子的特征组成的多维向量，多维向量里的某些元素本身没有区分性，比如某个元素在所有的例子中都为1，或者与1差距不大，那么这个元素本身就没有区分性，用它做特征来区分，贡献会非常小。所以我们的目的是找那些变化大的元素，即方差大的那些维，而去除掉那些变化不大的维，从而使特征留下的都是“精品”，而且计算量也变小了。

一个简单的例子：

对于一个训练集，100个对象模板，特征是10维，那么它可以建立一个100*10的矩阵，作为样本。求这个样本的协方差矩阵，得到一个10*10的协方差矩阵，然后求出这个协方差矩阵的特征值和特征向量，应该有10个特征值和特征向量，我们根据特征值的大小，取前四个特征值所对应的特征向量，构成一个10*4的矩阵，这个矩阵就是我们要求的特征矩阵，100*10的样本矩阵乘以这个10*4的特征矩阵，就得到了一个100*4的新的降维之后的样本矩阵，每个特征的维数下降了。