PCA的作用
有时候维度太多计算太麻烦,通过降维来达到计算方便的目的。如图
如果我们的目标是聚类的话,在平面上的四个点,如果将这四个点投影到红线上,成了一维的点,但依旧能完成聚类,因为他们的分布状况被影响地不大。
PCA的过程
1.我们首先获得二维平面上的点的数据,写成如下的矩阵
(1 1 2 4 2 )
1 3 3 4 4
2.然后计算出上下排的均值分别为2和3,然后为了方便后面的方差的计算将上下每一个数分别减去自己的均值得到
(-1 -1 0 2 0)
-2 0 0 1 1
3.然后我们要求协方差矩阵
首先协方差矩阵是什么?
我们都知道方差,方差表示的是一组数据的离散程度,也就是说你的数据中有很多0到10000一定比另一组有很多0到1的数据方差来的大。
那么协方差表示的是什么呢?协方差表示的是维度之间的(线性)相关性。也就是说平面上的x轴和y轴的协方差是0因为他们是不相关的。但两个y轴的协方差就很高。
协方差的公式是