直观理解PCA的大致过程

最新推荐文章于 2022-06-06 15:22:21 发布

无情的搬砖机器

最新推荐文章于 2022-06-06 15:22:21 发布

阅读量1.6k

点赞数 3

分类专栏：概率论基础

概率论基础专栏收录该内容

3 篇文章 0 订阅

订阅专栏

下午大致看了一下PCA的原理，方便日后能快速回忆，故写下此博客，如果有理解不对的地方还望海涵.

问：PCA主成分分析用于干什么？

答：

1、用途：降维

2、目的：提取最有价值的信息(基于方差)，无监督的，基于数据的方差寻找方差最大的方向，数据的最大方差给出了数据的最重要的信息，方差大更有利于分类任务

3、降维之后物理意义只有机器知道，但是不影响最后的分析结果，还可以有利于公开数据集源信息的隐藏

问：降维的处理手段怎么实现？

答：基变换

如下：怎么将向量（3，2）从黑色坐标轴变换到蓝色的坐标轴上？

方法：用新基(蓝色坐标轴的基)与数据做一次内积即可

问：基变换的方法有了，怎么找到一组合适的基呢？

答：

回答这个问题之前看一下怎么是协方差矩阵

方差就不讲了表示数据的集中程度，记得前面提到PCA要找到方差最大方向上的数据吧(寻找一个基，使得数据变换到该基的坐标上方差值越大越好)

协方差是衡量两组数据(如下图公式的ai和bi分别表示两组数据)相关性的一个概念：如果两组数据变化趋势相似协方差就大，两组数据变化趋势相反协方差越小(或者说两组数据相关性越高则这两组数据的协方差越大，两组数据相关性越低则这两组数据协方差越小，对于一组基来说协方差为0)

下图(均值为0)表示ai和bi已经去中心化了（就是每一维度的数据都与该维度的平均值做差）。这是数据处理的常用手段

有了协方差的概念，那么我们的优化目标就很明确了吧：基变换中用协方差最小来确定基底，数据信息用方差最大的。那么具体怎么确定呢？刚好协方差矩阵包含了方差和协方差的信息。比如有数据X，则协方差矩阵表示为 $1/m*XX^{^{T}}$ ，由于协方差矩阵的对角线是数据的方差，非对角线表示协方差，那么将协方差矩阵化为一个对角阵(方差最大，协方差为0)就可以达到我们的优化目标了。

由于协方差矩阵是一个对称矩阵，根据工程数学的知识可知，一个实对称矩阵一定可以对角化。将特征值从大到小排序，看需要将维度降到多少维，选择前面特征值大的对应的数据即可

总的流程：获取数据->去中心化->求数据对应的协方差矩阵->然后求特征值特征向量->确定最大的特征向量->将特征向量单位化->计算得到最后降维的数据

这里找到最大特征值对应的特征向量，将该向量及其内积为零的向量作为一组新的基.

上面是将数据建立在一维上，如果将数据建立在二维上就选择前两个比较大的特征向量即可

参考连接：https://www.bilibili.com/video/av29441413/?p=1

参考连接：https://www.matongxue.com/madocs/1025/

无情的搬砖机器

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。