<机器学习笔记-07>(scikit-learn 07)主成分分析PCA
关键词:主成分分析,PCA,scikit-learn,python,降维
摘要:本文主要介绍降维、PCA等概念,以及PCA实现、降维数据可视化、文件目录内所有图片读取、降维后利用逻辑回归进行分类等方法;
要点总结
了解降维的目的;
掌握方差、协方差、协方差矩阵的概念以及计算方法;
掌握PCA的概念、实现方法、以及用python实现从二维到一维的推倒;
掌握使用python对数据可视化的方法;
掌握使用python读取文件目录内所有图片,对其降维,并利用逻辑回归进行分类;
基本概念
降维致力于解决:
缓解维度灾难;
压缩数据时让信息损失最小化;
可视化
方差、协方差、协方差矩阵
方差(variance)-度量一组数据分散的程度;各个样本与样本均值的差的平方和的均值;
s2=∑ni=1(Xi−X⎯⎯⎯)2n−1协方差(Covariance)-度量两个变量的线性相关程度;两个变量的协方差为0,则统计学上认为二者线性无关;大于0表示二者正相关,小于0表示二者负相关;
cov(X,Y)=∑n