PCA
总述
我们假设把原数据中心化处理之后为
PCA(principle component analysis) 是一种降低数据维度的方法。接下来我分别用四种方法来推导一下(方法之间相互等价)。
最大方差法
我们通过方差来度量数据内的信息量,我们可以看到,如果将数据投影到某个方向,比如方向1,或者方向2,当投影后的数据尽可能分散的时候,也就是方差尽可能大的时候,保留的信息量是最大的,因此方向1是更好的。
![21b1d930972bc70dd6ae8b5de19090b0.png](https://i-blog.csdnimg.cn/blog_migrate/6f0b84365bcbed4eefbc14f419325403.png)
于是,我们的问题就变成了:在多维空间下,如何选择一个最优的方向,来让投影之后的数据保留最多的信息量。于是我们假设这个方向的单位方向向量是
所以方差变为
于是我们求解的最优化的问题就是,如何使
利用拉格朗日乘子法求得
因此
最小距离法
还是上图的例子,我们希望找到一个方向,让点到投影点的距离最小,损失的信息最少。所以还是方向1更好一些,于是问题变成了
所以等价于
所以和上述方法其实是等价的。
最小协方差法(kl变换)
在通过坐标变换之后,即对原始数据进行线性变换后,尽量使得变换后的协方差矩阵
而这时我们会发现变换后的对角矩阵D对角线其实是S的特征值(根据线性代数的知识),而P则是由对应的特征向量组成。于是就需要我们对S进行特征值分解
或者对X进行SVD(也可以使S对角化)
基于线性回归的思想
考虑线性回归模型
模型就会变为
我们就可以发现
而且在一定条件下,这种方法可能会比普通的最小二乘估计的均方误差更小。
(其实这种方法就是应用最大方差法结论反推,然后从代数方法解释了一下。)
。。。就随便写写,之后继续完善吧。。。