机器学习实践——利用PCA简化数据

最新推荐文章于 2022-10-05 15:01:18 发布

还迷来

最新推荐文章于 2022-10-05 15:01:18 发布

阅读量250

点赞数 1

分类专栏：机器学习实战

本文链接：https://blog.csdn.net/saltedperson/article/details/98654309

版权

机器学习实战专栏收录该内容

6 篇文章 1 订阅

订阅专栏

什么是降维？降维的目的又是什么？

现实世界中的数据往往具有多个特征值，但是在众多特征中起到关键作用的往往只是个别特征，或是特征之间存在着依赖的关系，从众多特征中选取较为重要特征的过程就称之为降维。

降维的目的就是对输入数据进行削减，由此剔除数据中的噪音并提高机器学习方法的性能。

降维的方法很多，这里介绍应用最为广泛的方法：主成分分析法（PCA）。

在PCA中，数据有原来的坐标系转换到新的坐标系中，第一个新的坐标轴是原始数据中方差最大的方向，第二个坐标轴是次最大方差且与第一个坐标轴正交，该过程一直重复，次数为原始数据中特征的数目。我们会发现大部分方差都包含在最前面的新坐标轴中。因此忽略余下的坐标轴，从而起到降维的效果。

那么，我们如何得到这些包含最大差异性的主成分方向呢（方差最大的方向）？事实上，通过计算数据矩阵的协方差矩阵，然后得到协方差矩阵的特征值及特征向量，选择特征值最大（也即包含方差最大）的N个特征所对应的特征向量组成的矩阵，我们就可以将数据矩阵转换到新的空间当中，实现数据特征的降维（N维）。

在NumPy中实现PCA

将数据转换成前N个主成分伪代码：

去除平均值
计算协方差矩阵
计算协方差矩阵的特征值和特征向量
将特征值排序
保留前N个最大的特征值对应的特征向量
将数据转换到上面得到的N个特征向量构建的新空间中（实现了特征压缩）

代码部分：

# encoding: utf-8
from numpy import *
import matplotlib.pyplot as plt
def loadData(filename):
    fr = open(filename)
    stringArr = [line.strip().split('\t') for line in fr.readlines()]
    #用map函数将数据变为float类型
    datArr = [map(float,line) for line in stringArr]
    return mat(datArr)

#topNfeat:选取前N个特征值，如果不指定就默认为9999
def pca(dataMat,topNfeat=9999):
    #求均值
    meanVal = mean(dataMat)
    #去均值
    meanRemoved = dataMat - meanVal
    #得到协方差矩阵
    covMat = cov(meanRemoved,rowvar=0)
    #得到特征值与特征值向量
    eigVals,eigVects = linalg.eig(mat(covMat))
    #argsort():对特征值矩阵进行由小到大排序，返回对应排序后的索引
    eigIndex = argsort(eigVals)
    #逆序选取最大的N个特征值的索引
    eigIndex = eigIndex[:-(topNfeat+1):-1]
    #将N个特征值的特征向量提取出来，组成压缩矩阵
    redEigVects = eigVects[:,eigIndex]
    #将除均值的矩阵乘上压缩矩阵，转换到新的空间
    lowDDataMat = meanRemoved * redEigVects
    #利用降维后的数据反构出原数据矩阵，
    reconMat = (lowDDataMat * redEigVects.T) + meanVal
    return lowDDataMat,reconMat

dataMat = loadData('Ch13/testSet.txt')
lowDMat,reconMat = pca(dataMat,1)
fig = plt.figure()
axex = fig.add_subplot(111)
axex.scatter(dataMat[:,0].flatten().A[0],dataMat[:,1].flatten().A[0],\
                    marker='^',s=90)
axex.scatter(reconMat[:,0].flatten().A[0],reconMat[:,1].flatten().A[0], marker='o',s=90,c='red')
plt.show()

实验结果：

示例：利用PCA对半导体制造数据降维

具体代码：

#用平均值代替缺失值
def replaceNanWithMean():
    dataMat = loadData('Ch13/secom.data',' ')
    numFeat = shape(dataMat)[1]
    for i in range(numFeat):
        #计算非缺失值的平均值
        meanVal = mean(dataMat[nonzero(~isnan(dataMat[:,i].A))[0],i])
        #将缺失值置为平均值
        dataMat[nonzero(isnan(dataMat[:,i].A))[0],i] = meanVal
    return dataMat

dataMat = replaceNanWithMean()
meanVals = mean(dataMat)
meanRemoved = dataMat - meanVals

covMat = cov(meanRemoved,rowvar=0)
eigVal,eigVects = linalg.eig(mat(covMat))
print mat(eigVal)

可以看到许多特征值都是0，意味着这些特征都是其他特征的副本，并无实际意义

总结：

降维往往作为预处理的步骤，在数据应用于算法之前清洗数据，去除数据中的噪音，使得机器学习任务更加精确

还迷来

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习实践——利用PCA简化数据

什么是降维？降维的目的又是什么？现实世界中的数据往往具有多个特征值，但是在众多特征中起到关键作用的往往只是个别特征，或是特征之间存在着依赖的关系，从众多特征中选取较为重要特征的过程就称之为降维。降维的目的就是对输入数据进行削减，由此剔除数据中的噪音并提高机器学习方法的性能。降维的方法很多，这里介绍应用最为广泛的方法：主成分分析法（PCA）。在PCA中，数据有原来的坐标系转换到新的坐...
复制链接

扫一扫