PCA(principle component analysis) 。主成分分析,主要是用来减少数据集的维度,然后挑选出基本的特征。原理简单,实现也简单。关于原理公式的推导,本文不会涉及,你能够參考以下的參考文献,也能够去Wikipedia,这里主要关注实现,算是锻炼一下自己。
本来是在复习LDA的,然后就看到了PCA。就跟着以下这篇文章的步骤,把PCA用python实现了一遍,详细的思想能够參考这篇文章,讲的通俗易懂,主要是有个实例參考,值得拥有!
以下自己来简单的清理下思路!
PCA思想
主要思想:移动坐标轴,将n维特征映射到k维上(k
这k维特征称为主元,是又一次构造出来的k维特征。而不是简单地从n维特征中去除其余n-k维特征。
说到PCA难免会提到LDA(linear discriminate analysis。线性判别分析),以及FA(factor analysis,因子分析)。关于LDA。打算有时间也用代码实现一遍,以下给出它的主要思想。
LDA思想:最大类间距离,最小类内距离。简而言之,第一,为了实现投影后的两个类别的距离较远。用映射后两个类别的均值差的绝对值来度量。
第二。为了实现投影后,每一个类内部数据点比較聚集。用投影后每一个类别的方差来度量。
三者的描写叙述例如以下
LDA is also closely related to principal component analysis (PCA) and factor analysis in that they both look for linear combinations