求PCA的过程
协方差
数学上可以用两个特征的协方差表示其相关性,即:
上式进行化简可得
Cov(X,Y) = E(XY) - E(X)E(Y)
则有
Cov(X,X) = E(X*X) - E(X)E(X) = D(X)
协方差矩阵
对于n维随机变量则有协方差矩阵,其定义如下:
对于二维变量,假设只有x和y两个字段,将它们按行组成矩阵,其中是通过中心化的矩阵,也就是每条字段减去每条字段的平均值得到的矩阵:
然后用B乘以B的转置,并乘上系数:
可以发现C 即是协方差矩阵。
利用PCA求平面法向量
协方差矩阵可以很好的展示点的离散程度,协方差矩阵S是一个对称矩阵。对称矩阵有如下性质(可参考线性代数):
- 对称矩阵A对应的两个不同的特征值对应的P1,P2特征向量正交
- 对称矩阵A必定正交相似于对角矩阵
- 若n阶矩阵A与对角矩阵相似,那么对角矩阵的n个值即是A的n个特征值。
有了以上结论,对PCA中的协方差矩阵S求出对角矩阵,特征值最大的对应的向量,便是主成分,对应数据比较分散的向量基。
特征值最小的向量,便是正交于主成分向量的,也是我们需要的法向量。
参考如下文章:
https://blog.csdn.net/YMilton/article/details/89263997
https://zhuanlan.zhihu.com/p/92507652