直观理解PCA的大致过程

下午大致看了一下PCA的原理,方便日后能快速回忆,故写下此博客,如果有理解不对的地方还望海涵.

问:PCA主成分分析用于干什么?

答:

1、用途:降维

2、目的:提取最有价值的信息(基于方差),无监督的,基于数据的方差寻找方差最大的方向,数据的最大方差给出了数据的最重要的信息,方差大更有利于分类任务

3、降维之后物理意义只有机器知道,但是不影响最后的分析结果,还可以有利于公开数据集源信息的隐藏

问:降维的处理手段怎么实现?

答:基变换

如下:怎么将向量(3,2)从黑色坐标轴变换到蓝色的坐标轴上?

方法:用新基(蓝色坐标轴的基)与数据做一次内积即可

问:基变换的方法有了,怎么找到一组合适的基呢?

答:

回答这个问题之前看一下怎么是协方差矩阵

方差就不讲了表示数据的集中程度,记得前面提到PCA要找到方差最大方向上的数据吧(寻找一个基,使得数据变换到该基的坐标上方差值越大越好)

协方差是衡量两组数据(如下图公式的ai和bi分别表示两组数据)相关性的一个概念:如果两组数据变化趋势相似协方差就大,两组数据变化趋势相反协方差越小(或者说两组数据相关性越高则这两组数据的协方差越大,两组数据相关性越低则这两组数据协方差越小,对于一组基来说协方差为0)

下图(均值为0)表示ai和bi已经去中心化了(就是每一维度的数据都与该维度的平均值做差)。这是数据处理的常用手段

有了协方差的概念,那么我们的优化目标就很明确了吧:基变换中用协方差最小来确定基底,数据信息用方差最大的。那么具体怎么确定呢?刚好协方差矩阵包含了方差和协方差的信息。比如有数据X,则协方差矩阵表示为1/m*XX^{^{T}},由于协方差矩阵的对角线是数据的方差,非对角线表示协方差,那么将协方差矩阵化为一个对角阵(方差最大,协方差为0)就可以达到我们的优化目标了。

 

由于协方差矩阵是一个对称矩阵,根据工程数学的知识可知,一个实对称矩阵一定可以对角化。将特征值从大到小排序,看需要将维度降到多少维,选择前面特征值大的对应的数据即可

总的流程:获取数据->去中心化->求数据对应的协方差矩阵->然后求特征值特征向量->确定最大的特征向量->将特征向量单位化->计算得到最后降维的数据

这里找到最大特征值对应的特征向量,将该向量及其内积为零的向量作为一组新的基.

上面是将数据建立在一维上,如果将数据建立在二维上就选择前两个比较大的特征向量即可

参考连接:https://www.bilibili.com/video/av29441413/?p=1

参考连接:https://www.matongxue.com/madocs/1025/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值