PCA

最新推荐文章于 2022-06-06 15:22:21 发布

Endearing aqua

最新推荐文章于 2022-06-06 15:22:21 发布

阅读量418

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_42650040/article/details/89455033

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

PCA（主成分分析）是数据挖掘和机器学习中的关键方法，用于高维数据的降维。通过计算数据集的协方差矩阵并找到最大特征值对应的特征向量，确定数据的主要变化方向。该过程旨在最大化方差，揭示数据的主要结构。协方差矩阵用于描述多个随机变量之间的相互关系，其对角线元素表示单个变量的方差，而非对角线元素表示不同变量间的协方差，从而反映它们的相关性。

摘要由CSDN通过智能技术生成

PCA：主成分分析，一种常用的数据分析方法，不管是在机器学习还是数据挖掘中都会用到。PCA主要通过求数据集的协方差矩阵最大的特征值对应的特征向量，由此找到数据方差最大的几个方向，对数据达到降维的效果，将一个n维的向量降低到d维，其中d<n。本文主要从方差最大化理论解释PCA的实现过程。

  首先来看这样几个实际问题，比如那到一个汽车的样本，里面既有千米每小时度量的最大速度特征，也有英里每小时的速度特征，很明显这两者是存在冗余的，知道其中的一个就可以计算另外一个，在特征中并没有必要将二者同时包含在里面。再比如拿到一个数学系本科学生期末考试成绩单，里面有三列，一列是对数学的感兴趣程度，一列是复习时间，还有一列是考试成绩，很明显，考试成绩跟兴趣是相关的，跟复习所用的时间也是相似的，那么可不可以合并前面两列呢？

  综合上面两个问题，可以发现，在样本中其实很多时候有些给定的特征是存在冗余的，我们希望在分类 时候所用到的特征都是和我们的标记是相关的，所以就可以用特征降维的方法减少特征数，较少噪声和冗余，减少过拟合的问题。
  期望方差与协方差矩阵

 给定一个含有m个样本的集合：X={X1,…,Xm}

均值：
在这里插入图片描述