什么是降维?降维的目的又是什么?
现实世界中的数据往往具有多个特征值,但是在众多特征中起到关键作用的往往只是个别特征,或是特征之间存在着依赖的关系,从众多特征中选取较为重要特征的过程就称之为降维。
降维的目的就是对输入数据进行削减,由此剔除数据中的噪音并提高机器学习方法的性能。
降维的方法很多,这里介绍应用最为广泛的方法:主成分分析法(PCA)。
在PCA中,数据有原来的坐标系转换到新的坐标系中,第一个新的坐标轴是原始数据中方差最大的方向,第二个坐标轴是次最大方差且与第一个坐标轴正交,该过程一直重复,次数为原始数据中特征的数目。我们会发现大部分方差都包含在最前面的新坐标轴中。因此忽略余下的坐标轴,从而起到降维的效果。
那么,我们如何得到这些包含最大差异性的主成分方向呢(方差最大的方向)?事实上,通过计算数据矩阵的协方差矩阵,然后得到协方差矩阵的特征值及特征向量,选择特征值最大(也即包含方差最大)的N个特征所对应的特征向量组成的矩阵,我们就可以将数据矩阵转换到新的空间当中,实现数据特征的降维(N维)。
在NumPy中实现PCA
将数据转换成前N个主成分伪代码:
去除平均值 计算协方差矩阵 计算协方差矩阵的特征值和特征向量 将特征值排序 保留前N个最大的特征值对应的特征向量 将数据转换到上面得到的N个特征向量构建的新空间中(实现了特征压缩)
代码部分:
# encoding: utf-8 from numpy import * import matplotlib.pyplot as plt def loadData(filename): fr = open(filename) stringArr = [line.strip().split('\t') for line in fr.readlines()] #用map函数将数据变为float类型 datArr = [map(float,line) for line in stringArr] return mat(datArr)
#topNfeat:选取前N个特征值,如果不指定就默认为9999 def pca(dataMat,topNfeat=9999): #求均值 meanVal = mean(dataMat) #去均值 meanRemoved = dataMat - meanVal #得到协方差矩阵 covMat = cov(meanRemoved,rowvar=0) #得到特征值与特征值向量 eigVals,eigVects = linalg.eig(mat(covMat)) #argsort():对特征值矩阵进行由小到大排序,返回对应排序后的索引 eigIndex = argsort(eigVals) #逆序选取最大的N个特征值的索引 eigIndex = eigIndex[:-(topNfeat+1):-1] #将N个特征值的特征向量提取出来,组成压缩矩阵 redEigVects = eigVects[:,eigIndex] #将除均值的矩阵乘上压缩矩阵,转换到新的空间 lowDDataMat = meanRemoved * redEigVects #利用降维后的数据反构出原数据矩阵, reconMat = (lowDDataMat * redEigVects.T) + meanVal return lowDDataMat,reconMat dataMat = loadData('Ch13/testSet.txt') lowDMat,reconMat = pca(dataMat,1) fig = plt.figure() axex = fig.add_subplot(111) axex.scatter(dataMat[:,0].flatten().A[0],dataMat[:,1].flatten().A[0],\ marker='^',s=90) axex.scatter(reconMat[:,0].flatten().A[0],reconMat[:,1].flatten().A[0], marker='o',s=90,c='red') plt.show()
实验结果:
示例:利用PCA对半导体制造数据降维
具体代码:
#用平均值代替缺失值 def replaceNanWithMean(): dataMat = loadData('Ch13/secom.data',' ') numFeat = shape(dataMat)[1] for i in range(numFeat): #计算非缺失值的平均值 meanVal = mean(dataMat[nonzero(~isnan(dataMat[:,i].A))[0],i]) #将缺失值置为平均值 dataMat[nonzero(isnan(dataMat[:,i].A))[0],i] = meanVal return dataMat dataMat = replaceNanWithMean() meanVals = mean(dataMat) meanRemoved = dataMat - meanVals covMat = cov(meanRemoved,rowvar=0) eigVal,eigVects = linalg.eig(mat(covMat)) print mat(eigVal)
可以看到许多特征值都是0,意味着这些特征都是其他特征的副本,并无实际意义
总结:
降维往往作为预处理的步骤,在数据应用于算法之前清洗数据,去除数据中的噪音,使得机器学习任务更加精确