PCA原理介绍

PCA理论基础

     要解释为什么协方差矩阵的特征向量就是k维理想特征,我看到的有三个理论:分别是最大方差理论、最小错误理论和坐标轴相关度理论。这里简单探讨前两种,最后一种在讨论PCA意义时简单概述。

3.1 最大方差理论

     在信号处理中认为信号具有较大的方差,噪声有较小的方差,信噪比就是信号与噪声的方差比,越大越好。如前面的图,样本在横轴上的投影方差较大,在纵轴上的投影方差较小,那么认为纵轴上的投影是由噪声引起的。

因此我们认为,最好的k维特征是将n维样本点转换为k维后,每一维上的样本方差都很大。

     比如下图有5个样本点:(已经做过预处理,均值为0,特征方差归一)

     clip_image026[4]

     下面将样本投影到某一维上,这里用一条过原点的直线表示(前处理的过程实质是将原点移到样本点的中心点)。

     clip_image028[4]

     假设我们选择两条不同的直线做投影,那么左右两条中哪个好呢?根据我们之前的方差最大化理论,左边的好,因为投影后的样本点之间方差最大。

     这里先解释一下投影的概念:

     QQ截图未命名

     红色点表示样例clip_image037[14],蓝色点表示clip_image037[15]在u上的投影,u是直线的斜率也是直线的方向向量,而且是单位向量。蓝色点是clip_image037[16]在u上的投影点,离原点的距离是clip_image039[4](即clip_image030[4]或者clip_image041[4]由于这些样本点(样例)的每一维特征均值都为0,因此投影到u上的样本点(只有一个到原点的距离值)的均值仍然是0,因此可以得到:


   图中,A样本矩阵已经是经过去中心化处理,这样A中每个样本的均值都是零点,所有样本分布在零点周围,同时A矩阵在任何一个向量上的投影点的集合,其均值也是零。因此可以得到图中的Au投影点的方差。其中X变量的方差就是其自身的协方差。


  回到上面左右图中的左图,我们要求的是最佳的u,使得投影后的样本点方差最大。

     由于投影后均值为0,因此方差为:

     clip_image042[4]

     中间那部分很熟悉啊,不就是样本特征的协方差矩阵么(clip_image037[17]的均值为0,一般协方差矩阵都除以m-1,这里用m)。

     用clip_image044[10]来表示clip_image046[4]clip_image048[6]表示clip_image050[4],那么上式写作

     clip_image052[4] 

     由于u是单位向量,即clip_image054[4],上式两边都左乘u得,clip_image056[4]

     即clip_image058[4]

     We got it!clip_image044[11]就是clip_image048[7]的特征值,u是特征向量。最佳的投影直线是特征值clip_image044[12]最大时对应的特征向量,其次是clip_image044[13]第二大对应的特征向量,依次类推。

     因此,我们只需要对协方差矩阵进行特征值分解,得到的前k大特征值对应的特征向量就是最佳的k维新特征,而且这k维新特征是正交的。得到前k个u以后,样例clip_image037[18]通过以下变换可以得到新的样本。

     clip_image059[4]

     其中的第j维就是clip_image037[19]clip_image061[4]上的投影。

     通过选取最大的k个u,使得方差较小的特征(如噪声)被丢弃

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值