PCA
PCA主要用于降维,即将高维数据降成低维。
但是应当怎么降才能使得信息损失最少呢?一种理论是认为降维后的数据方差越大,则信息损失最少。其实这符合我们的认知,如图:
如果将空间中二维的点降成一维的点,那么将空间中散点投影到蓝色线信息损失肯定会比投影到红色线的信息损失小。为什么?因为投影到蓝色线之后,点与点之间更分散,原来空间的点的投影重叠得更少,而投影到红色线则相反。也就是说投影到蓝色线的点方差更大,投影到红色线更小。
那么接下来就是要寻找这条线?
怎么找呢,在此之前,我们先看一下投影是怎么回事。
如图,将向量 x 投影到向量 u 上,则,线段 oxp 长度为 |x|cosθ ,我们再观察一下向量内积 <u,x>=|x||u|cosθ <script id="MathJax-Element-169" type="math/tex"><\mathbf{u},\mathbf{x}>=|\mathbf{x}||\mathbf{u}|cos\theta</script>,如果 |u |=1,则 oxp 的长度则可以写成 <u,x>=uTx <script id="MathJax-Element-172" type="math/tex"><\mathbf{u},\mathbf{x}>=\mathbf{u}^T\mathbf{x}</script>。也就是说,点x在向量 u 上的投影坐标为 uTx (在 uTu=1 的前提下).
那么好了,假设原来空间的所有样本点是0均值的(如果不是0均值,可以将其变成0均值,使 x=x−μ 即可, μ 为样本均值)
,所有样本点构成一个d*n的矩阵 D ,d为样本
那么所有样本都投影到向量 u 上时,可写成 uTD ,
那么投影后得到的点的方差为: