最近学习了,高维数据降为低维度数据的方法,了解了PCA主成分分析的方法。
(1)学习了基本原理
大体原理流程就是:
1.先计算数据集(n*m)的协方差矩阵,
2.再计算协方差矩阵的特征值和特征向量,
3.对特征值从大到小进行排序,选出你需要的前l个特征值,以及对应的特征向量。
4.将挑选的前l个特征向量重新组合成特征矩阵
5.原有数据集(n*m)乘以新的特征矩阵,实现了降维。
(2)基于原理的python的实现方法
(3)利用python机器学习库scikit-learn如何快速调用PCA。
涉及的特征值和特征向量的基本知识见下图。
这篇文章写的不错,简单易理解。
https://finthon.com/python-pca/