关于PCA算法的一点学习总结

最新推荐文章于 2022-06-20 17:05:48 发布

johnpub

最新推荐文章于 2022-06-20 17:05:48 发布

阅读量1.8k

点赞数

分类专栏：机器学习（人工智能）文章标签： PCA 机器学习科学计算

机器学习（人工智能）专栏收录该内容

23 篇文章 0 订阅

订阅专栏

PCA，也就是PrincipalComponents Analysis，主成份分析，是个很优秀的算法，按照书上的说法：

寻找最小均方意义下，最能代表原始数据的投影方法

然后自己的说法就是：主要用于特征的降维

另外，这个算法也有一个经典的应用：人脸识别。这里稍微扯一下，无非是把处理好的人脸图片的每一行凑一起作为特征向量，然后用PAC算法降维搞定之。

PCA的主要思想是寻找到数据的主轴方向，由主轴构成一个新的坐标系，这里的维数可以比原维数低，然后数据由原坐标系向新的坐标系投影，这个投影的过程就可以是降维的过程。

推导过程神马的就不扯了，推荐一个课件：http://www.cs.otago.ac.nz/cosc453/student_tutorials/principal_components.pdf，讲得挺详细的

然后说下算法的步骤

1.计算所有样本的均值m和散布矩阵S，所谓散布矩阵同协方差矩阵；

2.计算S的特征值，然后由大到小排序；

3.选择前n'个特征值对应的特征矢量作成一个变换矩阵E=[e1, e2, …, en’]；

4.最后，对于之前每一个n维的特征矢量x可以转换为n’维的新特征矢量y：

y = transpose(E)(x-m)

最后还得亲自做下才能记得住：用Python的numpy做的，用C做的话那就是没事找事，太费事了，因为对numpy不熟，下面可能有错误，望各位大大指正

[python]view plaincopyprint? 
   
 mat = np.load("data.npy")#每一行一个类别数字标记与一个特征向量  
 data = np.matrix(mat[:,1:])  
 avg = np.average(data,0)  
 means = data - avg  
   
 tmp = np.transpose(means) * means / N #N为特征数量  
 D,V = np.linalg.eig(tmp)#DV分别对应特征值与特征向量组成的向量，需要注意下的是，结果是自动排好序的，再次膜拜numpy  OTL  
 #print V  
 #print D  
 E = V[0:100,:]#这里只是简单取前100维数据，实际情况可以考虑取前80%之类的  
 y = np.matrix(E) * np.transpose(means)#得到降维后的特征向量  
   
 np.save("final",y)  

另外，需要提一下的是OpenCV（无所不能的OpenCV啊OTL）中有PCA的实现：

[cpp]view plaincopyprint? 
   
 void cvCalcPCA( const CvArr* data,//输入数据   
                 CvArr* avg, //平均（输出）  
                 CvArr* eigenvalues, //特征值（输出）  
                 CvArr* eigenvectors, //特征向量（输出）  
                 int flags );//输入数据中的特征向量是怎么放的，比如CV_PCA_DATA_AS_ROW