关于PCA降维原理的几点思考

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u011501388/article/details/78494245

在多变量分析及数据挖掘中,Principal Component Analysis(PCA)降维原理估计是最古老也是最著名的。PCA降维原理分别在三个领域中被发现:Pearson在研究生物结构时发现,Hotelling在心理测定领域发现该原理,Karhunen 在随机过程的框架下发现PCA原理,随后Lo`eve对其进行了归纳总结,故PCA变换也被称为K-L变换。由此可以看出,PCA原理分别在三个领域中被独立发现,可见PCA原理应用之广泛。PCA原理的公式化表达如下:




在上式中,y为变换后的特征矢量,x为原始特征矢量,W是变换矩阵。现在来分析一下PCA原理存在的局限性,供有识之士对其作出进一步改进:

1. 在对x进行预处理时,第一步需要对其中心化。中心化后,如果数据的尺度不统一,还需要标准化。通常的标准化方式是除以标准差。这里可能就出出现一个问题,比如标准差很小,接近于零,尤其是被噪声污染的数据,噪声的标准差对数据的放大作用更显著,而没被噪声污染的数据其在标准化的过程中放大作用较小。所以在对数据完全无知的情况下,PCA变换并不能得到较好的保留数据信息。

2. 变换矩阵是被限制为随轴心(维度)变化的,如变换矩阵W是各列之间归一化正交的,各行不是正交的。




3. 对降维最终得到的数目,也就是潜在的隐变量的数目,不能很好的估计。对潜在的因变量不能很好的估计这一点,对PCA降维的结果将产生重大影响。

4. PCA原理主要是为了消除变量之间的相关性,并且假设这种相关性是线性的,对于非线性的依赖关系则不能得到很好的结果。

5. PCA假设变量服从高斯分布,当变量不服从高斯分布(如均匀分布)时,会发生尺度缩放与旋转。

6. PCA变换是保距型的,拓扑结构不能保持。

可见PCA变换并不是最有效的数据降维方法,根本原因就是它假设数据变量之间是线性相关的并且服从高斯分布,下面来看一个具体的示例:


     

上图显示的是一个二维数据嵌入在一个三维空间里,其真实的潜在的二维数据如下图所示:


用PCA变换降维后的二维数据如下图所示:


可见,PCA降维后的二维数据与实际二维数据分布差距很大,根源就在于图一三维数据是非线性相关的,怎样把PCA原理扩展到非线性相关领域,一直是一个研究热点。


没有更多推荐了,返回首页