主成份分析(PCA,Principal component analysis),K-L变换(Karhunen–Loève theorem),霍特林变换,尽管名字很多,但本质上它们都是一个东西。PCA是机器学习和数据挖掘中的一种常用的降维方法(也从属于流形学习的范畴),还是数字图像处理中用来进行编码和压缩的一种技术。
一、协方差与协方差矩阵
为了帮助读者理解上面给出的协方差矩阵定义,在此举一个简单的三维的例子,假设数据集有 {x,y,z} 三个维度,则协方差矩阵为
可见,协方差矩阵是一个对称的矩阵,而且对角线是各个维度上的方差。下面通过一个例子来尝试演算协方差矩阵(很多数学软件都为该操作提供了支持)。需要提醒读者注意的是,协方差矩阵计算的是不同维度之间的协方差,而不是不同样本之间的。例如有一个