PCA:Principal Component Analysis
是一种常用的降维手段。
重点:无监督
不能基于标签,而是基于方差。
方差越大的方向,数据分散得越开。
🌟看了一个教程,内容如下:
以老鼠的基因为例,如果只关注一个基因,那么我们的数据是一维的,可以简单的在坐标轴上展示,如下图。(坐标轴上,越往右数值越大)
从图上我们仍然可以得出:老鼠1、2、3之间的相似性比较高,类似的,老鼠4、5、6之间的相似性比较高。
如果有两个基因的话,需要一个二维的坐标轴来表示数据:
老鼠1、2、3的基因数据聚集在右上方,老鼠4、5、6的数据聚集在左下方。
通过分别计算数据在两个轴上投影的均值(中心),得到整体数据的中心。
移动数据,使中心处于原点位置:(不会改变数据之间的相对位置)
首先绘制一条过原点的随机线,然后旋转直线,使它尽可能拟合我们的数据。
找到拟合得最好的直线:
问题:如何判断拟合得好还是不好呢?
1.将数据投影到直线上
2.测量数据到直线的距离,找到使该距离最小的线
(或者 可以尝试找到使得这些数据的投影点到原点的距离之和最大的线 [勾股定理] )
后者更容易计算,所以比较常用。
找到了!这条线!