python 实现PCA(二)

1.PCA原理介绍

  主成分分析英语Principal components analysisPCA)是一种分析、简化数据集的技术。主成分分析经常用于减少数据集的维数,同时保持数据集中的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。PCA的核心是处理数据,将需要处理的数据转换到矩阵,一般来只要能够转换为合适矩阵的数据,在计算量非常大的时候都可以通过PCA进行降维,进而达到简化和提速的目的。具体的数据推倒过程,下边这边文章介绍的很好:http://blog.csdn.net/watkinsong/article/details/38536463

PCA涉及到比较多的数学知识,matlab、python之类语言都会自带有PCA计算的一些包,经过这样之后,可以方便我们的计算,但同时,当数据量非常大的时候,本身计算PCA的过程也需要耗费大量的内存,后来很多人基于数学理论提出了非常多的快速PCA的算法,扩展了PCA的应用。

2.python实现PCA

根据机器学习实战这本书的指导,利用python的numpy计算库的函数逐一实现PCA的计算过程,加深其理解,最后对获得的数据进行可视化。

[python]  view plain  copy
  1. # coding=utf-8  
  2. __author__ = 'Administrator'  
  3.   
  4. from numpy import *  
  5. # 加载数据,返回mat型数据  
  6. def loadDataSet(filename,delim='\t'):  
  7.     fr =open(filename)  
  8.     stringArr =[line.strip().split(delim) for line in fr.readlines()]  
  9.     datArr =[map(float,line) for line in stringArr]  
  10.     return mat(datArr)  
  11.   
  12. # 进行PCA计算  
  13. def pca(dataMat,topNfeat=9999999):  
  14.     #求数据集的平均值,用数据减去其平均值  
  15.     meanVals =mean(dataMat,axis=0)  
  16.     meanRemoved =dataMat - meanVals  
  17.     #计算协方差矩阵  
  18.     covMat =cov(meanRemoved,rowvar =0)  
  19.     #得到协方差矩阵的特征值和特征向量  
  20.     eigvals,eigVects =linalg.eig(mat(covMat))  
  21.     #对特征值进行排序  
  22.     eigValInd =argsort(eigvals)  
  23.     #得到前N个特征值和对应的特征向量  
  24.     eigValInd =eigValInd[:-(topNfeat+1):-1]  
  25.     redEigVects =eigVects[:,eigValInd]  
  26.     #利用特征向量对去掉平均值的数据进行降维  
  27.     lowDDataMat =meanRemoved * redEigVects  
  28.     #得到最后的输出低维矩阵  
  29.     reconMat =(lowDDataMat * redEigVects.T) +meanVals  
  30.     return lowDDataMat,reconMat  
  31.   
  32. if __name__=='__main__':  
  33.     import matplotlib  
  34.     import matplotlib.pyplot as plt  
  35.     # 加载数据  
  36.     dataMat =loadDataSet('testSet.txt')  
  37.     # 进行pca,这里将数据转换为1维  
  38.     lowDat,reconMat =pca(dataMat,1)  
  39.     # 显示结果  
  40.     fig =plt.figure()  
  41.     ax =fig.add_subplot(111)  
  42.     ax.scatter(dataMat[:,0].flatten().A[0],dataMat[:,1].flatten().A[0],marker='^',s=90)  
  43.     ax.scatter(reconMat[:,0].flatten().A[0],reconMat[:,1].flatten().A[0],marker='o',s=50,c='red')  
  44.     plt.show()  

程序运行结果如下,蓝色表示原始数据,红色为PCA降维后的数据:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值