1. PCA原理
图像处理等领域经常会用到主成分分析,这样做的好处是使要分析的数据的维度降低了,但是数据的主要信息还能保留下来。它的原理是这样的,对于给定一组数据(列向量):
将其中心化后表示为:
其中u为输入列向量的均值。中心化后的数据在第一主轴u1(既是数据的主方向,这里假设为单位向量)方向上分布散的最开,也就是说在u1方向上的投影的绝对值之和最大(也可以说方差最大),计算投影的方法就是将x与u1做内积,由于只需要求u1的方向,所以设u1是单位向量。也就是最大化下式:
也即最大化:
采用平方可以把绝对值符号拿掉,光滑曲线处理起来方便。两个向量做内积可以转化成矩阵乘法的形式,