今天我们给大家介绍下PCA,K-PCA以及ICA之间有什么关系,同时在R语言如何实现这几个模型。
主成分分析(PCA),是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于取主成分(主要信息),摒弃冗余信息(次要信息),常用于高维数据的降维。本质是将方差最大的方向作为主要特征,并且在各个正交方向上将数据“离相关”,也就是让它们在不同正交方向上没有相关性。主要应用于高斯分布的线性数据的降维。
核主成分分析(K-PCA),是PCA的升级版主要是解决线性数据的限制,它可以将非线性可分的数据转换到一个适合对齐进行线性分类的新的低维子空间上。其本质同PCA。
独立成分分析(ICA),指在只知道混合信号,而不知道源信号、噪声以及混合机制的情况下,分离或近似地分离出源信号的一种分析过程;是盲信号分析领域的一个强有力方法,也是求非高斯分布数据隐含因子的方法
ICA与PCA区别:
1) PCA是将原始数据降维并提取出不相关的属性,而ICA是将原始数据降维并提取出相互独立的属性。
2) PCA目的是找到这样一组分量表示,使得重构误差最小,即最能代表原事物的特征。ICA的目的是找到这样一组分量表示,使得每个分量最大化独立,能够发现一些隐藏因素。由此可见,ICA的条件比PCA更强些。
3) ICA要求找到最大独立的方向,各个成分是独立的;PCA要求找到最大方差的方向,各个成分是正交的。
4) ICA认为观测信号是若干个统计独立的分量的线性组合,ICA要做的是一个解混过程。而PCA是一个信息提取的过程,将原始数据降维,现已成为ICA将数据标准化的预处理步骤。