主成分分析(PCA)详解
第十一次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这一篇的部分内容来自于网上资料,以及自己的一些见解。作为降维方法的一种,后续还会持续更新同类算法。
预备知识:
这一部分首先介绍几何学中的投影长度计算以及线性代数中的协方差、矩阵的特征值与特征向量,最后介绍PCA的数据预处理和伸缩最大化问题。
计算投影长度
图中,红色点表示样例 x i x_i xi,蓝色点表示在 u i u_i ui上的投影, u i u_i ui是直线的斜率也是直线的方向向量,而且是单位向量。蓝色点是在 u i u_i ui上的投影点,离原点的距离即为投影长度。即原向量 x i x_i xi,投影方向 u i u_i ui,投影长度为 x i T u i x_{i}^{T}u_i xiTui。

协方差
▶ \blacktriangleright ▶协方差计算公式:

▶ \blacktriangleright ▶协方差矩阵:
假设,二维空间上的三个点 x 1 = ( x 11 , x 12 ) x_1=\left(x_{11},x_{12}\right) x1=(x11,x12)、 x 2 = ( x 21 , x 22 ) x_2=\left(x_{21},x_{22}\right) x2=(x21,x22)、 x 3 = ( x 31 , x 32 ) x_3=\left(x_{31},x_{32}\right) x3=(x31,x32),令 d 1 = ( x 11 , x 21 , x 31 ) d_1=\left(x_{11},x_{21},x_{31}\right) d1=(x11,x21,x31)、 d 2 = ( x 12 , x 22 , x 32 ) d_2=\left(x_{12},x_{22},x_{32}\right) d2=