PCA主成分分析学习笔记

最新推荐文章于 2024-05-05 17:08:04 发布

Chelseady

最新推荐文章于 2024-05-05 17:08:04 发布

阅读量522

点赞数

CC 4.0 BY-SA版权

分类专栏： python 机器学习算法

本文链接：https://blog.csdn.net/Chelseady/article/details/101025843

python 同时被 3 个专栏收录

35 篇文章

订阅专栏

机器学习

16 篇文章

订阅专栏

算法

4 篇文章

订阅专栏

一.PCA思想

降维就是一种对高维度特征数据预处理方法。降维是将高维度的数据保留下最重要的一些特征，去除噪声和不重要的特征，从而实现提升数据处理速度的目的。在实际的生产和应用中，降维在一定的信息损失范围内，可以为我们节省大量的时间和成本。降维也成为应用非常广泛的数据预处理方法。

降维具有如下一些优点：

1) 使得数据集更易使用。
2) 降低算法的计算开销。
3) 去除噪声。
4) 使得结果容易理解。
降维的算法有很多，比如奇异值分解(SVD)、主成分分析(PCA)、因子分析(FA)、独立成分分析(ICA)。

1.概念：主成分分析是一种统计方法，通过正交变换将一组可能存在相关性的变量转换成一组线性不相关的变量，转换后的这组变量叫主成分。

2.思想：PCA的思想是将n维特征映射到m维上（m<n），这m维是全新的正交特征，称为主成分，这m维的特征是重新构造出来的，不是简单的从n维特征中减去n-m维特征。PCA的核心思想就是将数据沿最大方向投影，数据更易于区分。
二.推导过程

见https://blog.csdn.net/program_developer/article/details/80632779

三.PCA 实现的方法

（1）基于特征值分解协方差矩阵实现PCA算法

（2）基于SVD分解协方差矩阵实现PCA算法

详细见：https://blog.csdn.net/program_developer/article/details/80632779

四.实现代码

数据来源：https://github.com/csuldw/MachineLearning/blob/master/PCA/data.txt

1.源代码

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt


#计算均值,要求输入数据为numpy的矩阵格式，行表示样本数，列表示特征    
def meanX(dataX):
    return np.mean(dataX,axis=0)    #axis=0表示依照列来求均值。假设输入list,则axis=1

"""
參数：
    - XMat：传入的是一个numpy的矩阵格式，行表示样本数，列表示特征    
    - k：表示取前k个特征值相应的特征向量
返回值：
    - finalData：參数一指的是返回的低维矩阵，相应于输入參数二
    - reconData：參数二相应的是移动坐标轴后的矩阵
"""

def pca(XMat, k):
    average = meanX(XMat) 
    m, n = np.shape(XMat)
    data_adjust = []
    avgs = np.tile(average, (m, 1))
    data_adjust = XMat - avgs
    covX = np.cov(data_adjust.T)   #计算协方差矩阵
    featValue, featVec=  np.linalg.eig(covX)  #求解协方差矩阵的特征值和特征向量
    index = np.argsort(-featValue) #依照featValue进行从大到小排序
    finalData = []
    if k > n:
        print "k must lower than feature number"
        return
    else:
        #注意特征向量时列向量。而numpy的二维矩阵(数组)a[m][n]中，a[1]表示第1行值
        selectVec = np.matrix(featVec.T[index[:k]]) #所以这里须要进行转置
        finalData = data_adjust * selectVec.T 
        reconData = (finalData * selectVec) + average  
    return finalData, reconData
#输入文件的每行数据隔开
def loaddata(datafile):
    return np.array(pd.read_csv(datafile,sep="\t",header=-1)).astype(np.float)

#可视化结果将维数k指定为2
def plotBestFit(data1, data2):    
    dataArr1 = np.array(data1)
    dataArr2 = np.array(data2)

    m = np.shape(dataArr1)[0]
    axis_x1 = []
    axis_y1 = []
    axis_x2 = []
    axis_y2 = []
    for i in range(m):
        axis_x1.append(dataArr1[i,0])
        axis_y1.append(dataArr1[i,1])
        axis_x2.append(dataArr2[i,0]) 
        axis_y2.append(dataArr2[i,1])                 
    fig = plt.figure()
    ax = fig.add_subplot(111)
    ax.scatter(axis_x1, axis_y1, s=50, c='red', marker='s')
    ax.scatter(axis_x2, axis_y2, s=50, c='blue')
    plt.xlabel('x1'); plt.ylabel('x2');
    plt.savefig("outfile.png")
    plt.show()  

#测试
#依据数据集data.txt
def main():    
    datafile = "data.txt"
    XMat = loaddata(datafile)
    k = 2
    return pca(XMat, k)
if __name__ == "__main__":
    finalData, reconMat = main()
    plotBestFit(finalData, reconMat)

五.结果展示