PCA理论基础
要解释为什么协方差矩阵的特征向量就是k维理想特征,我看到的有三个理论:分别是最大方差理论、最小错误理论和坐标轴相关度理论。这里简单探讨前两种,最后一种在讨论PCA意义时简单概述。
3.1 最大方差理论
在信号处理中认为信号具有较大的方差,噪声有较小的方差,信噪比就是信号与噪声的方差比,越大越好。如前面的图,样本在横轴上的投影方差较大,在纵轴上的投影方差较小,那么认为纵轴上的投影是由噪声引起的。
因此我们认为,最好的k维特征是将n维样本点转换为k维后,每一维上的样本方差都很大。
比如下图有5个样本点:(已经做过预处理,均值为0,特征方差归一)
![clip_image026[4] clip_image026[4]](https://i-blog.csdnimg.cn/blog_migrate/5f0450b0e37ce75d624e282b7712c55c.png)
下面将样本投影到某一维上,这里用一条过原点的直线表示(前处理的过程实质是将原点移到样本点的中心点)。
![clip_image028[4] clip_image028[4]](https://i-blog.csdnimg.cn/blog_migrate/57020efaf347bd8be1ba3bfa3f6bde7e.jpeg)
假设我们选择两条不同的直线做投影,那么左右两条中哪个好呢?根据我们之前的方差最大化理论,左边的好,因为投影后的样本点之间方差最大。
这里先解释一下投影的概念:
![QQ截图未命名 QQ截图未命名](https://i-blog.csdnimg.cn/blog_migrate/4e576a2d01ffe2ccd2d308a64fad5456.png)
红色点表示样例
,蓝色点表示
在u上的投影,u是直线的斜率也是直线的方向向量,而且是单位向量。蓝色点是
在u上的投影点,离原点的距离是
(即
或者
)由于这些样本点(样例)的每一维特征均值都为0,因此投影到u上的样本点(只有一个到原点的距离值)的均值仍然是0,因此可以得到:
![](https://img-blog.csdn.net/20151226223218167?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
图中,A样本矩阵已经是经过去中心化处理,这样A中每个样本的均值都是零点,所有样本分布在零点周围,同时A矩阵在任何一个向量上的投影点的集合,其均值也是零。因此可以得到图中的Au投影点的方差。其中X变量的方差就是其自身的协方差。
回到上面左右图中的左图,我们要求的是最佳的u,使得投影后的样本点方差最大。
由于投影后均值为0,因此方差为:
![clip_image042[4] clip_image042[4]](https://i-blog.csdnimg.cn/blog_migrate/5b54e0e04423f33389626c559c1ebdee.png)
中间那部分很熟悉啊,不就是样本特征的协方差矩阵么(
的均值为0,一般协方差矩阵都除以m-1,这里用m)。
用
来表示
,
表示
,那么上式写作
由于u是单位向量,即
,上式两边都左乘u得,![clip_image056[4] clip_image056[4]](https://i-blog.csdnimg.cn/blog_migrate/88b4c1e8e2568cb86f91d9240eefbb55.png)
即![clip_image058[4] clip_image058[4]](https://i-blog.csdnimg.cn/blog_migrate/cfc067eedba9d83d68a7cf640aa6374e.png)
We got it!
就是
的特征值,u是特征向量。最佳的投影直线是特征值
最大时对应的特征向量,其次是
第二大对应的特征向量,依次类推。
因此,我们只需要对协方差矩阵进行特征值分解,得到的前k大特征值对应的特征向量就是最佳的k维新特征,而且这k维新特征是正交的。得到前k个u以后,样例
通过以下变换可以得到新的样本。
![clip_image059[4] clip_image059[4]](https://i-blog.csdnimg.cn/blog_migrate/100f82e40d56dbb029af38d6a9bc4131.png)
其中的第j维就是
在
上的投影。
通过选取最大的k个u,使得方差较小的特征(如噪声)被丢弃