数据量太大时往往会有相关性较高的维度,给建模计算带来不必要的开支。
算法步骤:
输入:n维样本集,要降维到的维数n'.
输出:降维后的样本集D'
1) 对所有的样本进行中心化:
2) 计算样本的协方差矩阵
3) 对矩阵进行特征值分解
4)取出最大的n'个特征值对应的特征向量 将所有的特征向量标准化后,组成特征向量矩阵W。
5)对样本集中的每一个样本,转化为新的样本
6) 得到输出样本集
推导:
PCA思想:
- 将高维数据投影至低维空间,从而减少获得源数据的主要特征。
- 获得低维转换的方法:在低维空间里方差最大。
有mXn维数据,对其去中心化,。设新坐标系正交基为