PCA降维

最新推荐文章于 2022-02-08 22:37:21 发布

弯道超越

最新推荐文章于 2022-02-08 22:37:21 发布

阅读量740

点赞数 1

分类专栏： OpenCV 文章标签：机器学习 PCA

OpenCV 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一.概念

Principal Component Analysis(PCA)：主成分分析法，是最常用的线性降维方法，它的目标是通过某种线性投影，将高维的数据映射到低维的空间中表示，即把原先的n个特征用数目更少的m个特征取代，新特征是旧特征的线性组合。并期望在所投影的维度上数据的方差最大，尽量使新的m个特征互不相关。从旧特征到新特征的映射捕获数据中的固有变异性。以此使用较少的数据维度，同时保留住较多的原数据点的特性。

二.算法

1.对所有样本进行中心化操作
2.计算样本的协方差矩阵
3.对协方差矩阵做特征值分解
4.取最大的d个特征值对应的特征向量，构造投影矩阵W
通常低维空间维数d的选取有两种方法：
1）通过交叉验证法选取较好的d
2）从算法原理的角度设置一个阈值，比如t=0.95，然后选取似的下式成立的最小的d值：
　　　　Σ（i->d）λi/Σ（i->n）λi>=t，其中λi从大到小排列
PCA降维的准则有以下两个：
最近重构性：重构后的点距离原来的点的误差之和最小
最大可分性：样本点在低维空间的投影尽可能分开

四.总结

PCA是多变量分析中较为古老的技术，它来源于通信理论中的K-L变换，其实质就是在尽可能好的代表原特征情况下，将原特征进行线性变换、映射至低纬度空间。PCA追求的是在降维之后能够最大化保持数据的内在信息，并通过衡量在投影方向上的数据方差的大小来衡量该方向的重要性。但是这样投影以后对数据的区分作用并不大，反而可能使得数据点揉杂在一起无法区分。这也是PCA存在的最大一个问题，这导致使用PCA在很多情况下的分类效果并不好。

原文出处：https://www.imooc.com/article/44218