利用PCA来降维
1.为什么要降维?
- 降低算法开销
- 去除噪声
因此常常作为预处理阶段,但并不是所有都需要经过降维处理
2.三大降维技术简介?
1. 独立成分分析/ICA
假设:数据是从N个数据源中产生,这些数据源之间在统计关系是相互独立的。
算法核心:数据源的数目少于观察数据的数目
个人理解:这里假设数据从数据源产生,将非数据源视为杂质,而达到降维
2. 因子分析
假设:观察的数据存在隐变量。隐变量和噪声之间线性组合
算法核心:隐变量的数据比观测数据少,找到隐变量实现降维
个人理解:找到隐变量就相当于找到噪声,而将噪声去除的一个过程
3. PCA
算法核心:通过沿着数据最大方差方向旋转坐标轴来实现的。
选择方差最大的方向作为第一条坐标轴,后续坐标则与前面坐标轴正交。
协方差矩阵上的特征值分析可以用一系列的正交坐标轴来获取。pca最广泛所以后面只介绍它