本来打算查查资料总结一下PCA的原理,但是发现关于PCA介绍的神文一篇,颇有深入浅出的感觉,介绍的实在详细,我还是不献丑了。但是,单纯转载过来实在没什么技术性,而且也有点辜负当初那位大神的费心总结,所以认真拜读之后,整理原文介绍PCA的思路如下,希望能够锦上添花,方便读者理解。 原文地址:点击打开链接
1. 先说明数据的维度可能是彼此相关的,当维度很高时,是否可以降维,并且使得信息的损失最小。在这里作者举例男女性别以及销售情况,来说明降维的动机和可行性。
2. 解释 向量內积的物理含义,即,当向量B的模为1时,向量A和向量B的內积等于向量A在B所在直线上的投影的矢量距离。 注:矢量距离可为负,此时两向量夹角为钝角;标量距离只能为正。3. 引入基的定义,以及当基向量变化时,新的坐标就是原向量在新的基向量上的投影,即矢量距离,也就是原向量和单位基向量的內积。 注:基的确定,是一切向量坐标定位的前提。另外点明,只要不是在一条直线上的两向量,都可以成为一组基向量,但是一般希望是正交的。
4.推广单个向量在二维空间基变换时的计算方法,为多个向量在更高维度同时发生基变换的矩阵计算模式。而这个矩阵相乘的模式就可以用了做降维的变换,也表明该矩阵相乘(降维变换)的一种物理解