PCA(主成分分析)降维:找使得方差最大的投影方向

本质:去掉数据中没什么用处的信息,减少维度。
方法:找到一个方向,使得数据在这些投影方向上的方差最大。计算原始数据在这些正交基上投影的方差,方差越大,就说明在对应正交基上包含了更多的信息量。这个方向就是主成分。
可以用numpy实现对数据的降维,利用数据的特征值和特征向量。
例如:一个100*4(性别;颜值;身高;收入)维的矩阵,PCA降维就是保留差别最大的那几列。假设性别都为女,对特征没影响就去掉;假设收入这一列差别特别大,就要保留这一列。
在这里插入图片描述
方法:(把n维的降维成k维)
1.去掉均值
2.计算协方差矩阵的特征值和特征向量;特征值代表重要程度。
3.保留最大的k个特征值对应的特征向量
4.把数据转化到上述特征向量构建的新空间

def pca(dataMat, topNfeat=999999):
    meanVals = mean(dataMat)
    meanRemoved = dataMat - meanVals #去均值
    covMat = cov(meanRemoved, rowvar=0) #协方差矩阵
    eigVals,eigVects = linalg.eig(mat(covMat))
    # numpy内建函数,一次性求出特征值和特征向量
    eigValInd = argsort(eigVals)
    eigValInd = eigValInd[:-(topNfeat+1):-1]
    redEigVects = eigVects[:,eigValInd]
    # 对特征值从小到大排序
    lowDDataMat = meanRemoved * redEigVects
    # 将数据集投影到新的空间,结果是一个低维数据
    reconMat = (lowDDataMat * redEigVects.T) + meanVals
    return lowDDataMat, reconMat

例如:
一个1004(性别;颜值;身高;收入)维的矩阵,经过PCA降维成1002的矩阵的过程:
对每一列求一个特征值,按照降序排列,去掉最后两列,就变成100*2的了。可能只剩下身高和收入了。

PCA 还能从回归的角度求解问题。顺着这个思路 , 在高维空间中 , 我们实际上是要找到 一个 d 维超平
面,使得数据点到这个超平面的距离平方和最小 。 以 d= l 为例,超平面退化为直线 , 即把样本点投影到最佳直线,最小化的就是所有点到直线的距离平方之。目标函数为:
在这里插入图片描述
在这里插入图片描述
等价于:
在这里插入图片描述

  • 5
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值