【PCA的原理】

最新推荐文章于 2024-08-13 10:09:13 发布

01_6

最新推荐文章于 2024-08-13 10:09:13 发布

阅读量442

点赞数 10

分类专栏：机器学习文章标签：人工智能 PCA主成分分析 python 算法机器学习

本文链接：https://blog.csdn.net/2301_77444219/article/details/140454852

版权

机器学习专栏收录该内容

24 篇文章 0 订阅

订阅专栏

文章目录

PCA（主成分分析）的主要目标是：
PCA的原理
PCA的步骤

PCA（主成分分析）的主要目标是：

将特征维度变小，‌同时尽量减少信息损失。‌它通过对一个样本矩阵进行特征变换，‌找出一组新的特征来重新表示数据，‌同时减少特征的数目，‌新特征的数目远小于原特征的数目。‌通过PCA，‌可以将n维原始特征映射到k维（‌k<n）‌上，‌称这k维特征为主成分。‌重要的是，‌这并不是简单地从n维特征中去除其余n-k维特征，‌而是重新构造出全新的k维正交特征，‌且新生成的k维数据尽可能多地包含原来n维数据的信息。‌

PCA的降维过程可以理解为旋转坐标系，‌取前k个轴作为新特征。‌

降维的代数意义是通过矩阵乘法运算，‌即原始样本与投影矩阵做矩阵乘法运算，‌得到低维矩阵。‌

PCA通过寻找数据中的最大方差方向，‌即投影方差最大，‌来确定新的维度。‌这个过程涉及到对实对称方阵进行正交对角化，‌分解为特征向量和特征值，‌其中不同特征值对应的特征向量之间线性无关。‌特征值表示对应特征向量的重要程度，‌特征值越大，‌代表包含的信息量越多。‌

综上所述，‌PCA是一种有效的数据分析方法，‌它通过找到数据中的最大方差方向，‌将原始数据投影到这些方向上，‌从而实现数据的降维和特征提取。

主成分分析（PCA）是一种常用的数据降维技术，它可以通过提取数据中最重要的特征来减少数据集的维数，同时尽可能保留原始数据的信息。以下是PCA的基本原理和步骤：

PCA的原理

PCA（‌主成分分析）‌的原理是：

通过线性变换将原始数据变换为一组各维度线性无关的表示，‌用于提取数据的主要特征分量，‌常用于高维数据的降维。‌

1. 方差最大化：
  PCA的目标是找到数据中方差（数据分布的广度）最大的方向，然后将数据投影到这些方向上。这些方向称为主成分，它们是数据协方差矩阵的特征向量。第一个主成分是数据方差最大的方向，第二个主成分是与第一个主成分正交（垂直）且具有次大方差的方向，依此类推。
1. 协方差矩阵：
  在计算主成分之前，通常先将数据标准化（即减去均值并除以标准差），以避免不同量级的特征影响结果。然后，计算数据的协方差矩阵。协方差矩阵反映了数据各特征之间的相关性。
1. 特征值分解：
  计算协方差矩阵的特征值和特征向量。特征值表示各主成分的方差贡献大小，特征向量则定义了主成分的方向。
1. 选择主成分：
  根据特征值的大小，选择最重要的几个特征向量作为主成分。这些特征向量定义了新的空间，数据将被投影到这个新空间中，从而实现降维。