机器学习——通过PCA技术实现降维

Rio Youxi

已于 2024-06-18 16:22:25 修改

阅读量701

点赞数 26

文章标签：机器学习人工智能

于 2024-06-18 15:08:39 首次发布

本文链接：https://blog.csdn.net/m0_74864756/article/details/139773374

版权

一、PCA算法

1、为什么要使用PCA技术

通常我们在处理数据的过程中会处理到一些巨大的数据，而且这些数据可能会具有巨大的数据冗余度和维度灾难，所以我们需要使用降维技术来更好的处理这些数据。

1、PCA算法的概念

PCA（principle component analysis），即主成分分析法，是一个非监督的机器学习算法，是一种用于探索高维数据结构的技术，主要用于对数据的降维，通过降维可以发现更便于人理解的特征，加快对样本有价值信息的处理速度，此外还可以应用于可视化（降到二维）和去噪。基本原理是通过线性变换将原始数据投影到新的坐标系，使得投影后的数据方差最大。 PCA算法所要达到的目标是，降维后的数据所损失的信息量应该尽可能的少。

2、PCA算法的原理

PCA算法的主要思想是将n维特征映射到k维上，这k维是全新的正交特征也被称为主成分，是在原有n维特征的基础上重新构造出来的k维特征。

3、PCA算法的实现步骤

标准化数据：首先，对数据进行标准化处理，使得每个特征的均值为0，方差为1。这是为了确保不同特征在计算过程中具有相同的重要性。
计算协方差矩阵：接下来，计算标准化后数据的协方差矩阵。协方差矩阵反映了数据中各个特征之间的相关性。
计算特征值和特征向量：对协方差矩阵进行特征值分解，得到特征值和对应的特征向量。特征向量代表了数据中的主要方向（即主成分），而特征值则代表了这些方向上的方差大小。
选择主成分：根据特征值的大小，选择前k个最大的特征值对应的特征向量作为主成分。这些主成分构成了一个新的坐标系，可以用来表示原始数据。
数据投影：将原始数据投影到选定的主成分上，得到降维后的数据。这个过程实际上是将原始数据从原来的特征空间转换到新的低维空间。

4、PCA算法的降维准则

使投影后的数据尽可能地分散开来

二、PCA算法的代码实现

1、PCA函数

def pca(X, n_components):

    # 数据标准化
    scaler = StandardScaler()
    X_scaled = scaler.fit_transform(X)

    # 计算协方差矩阵
    covariance_matrix = np.cov(X_scaled.T)

    # 计算特征值和特征向量
    eigenvalues, eigenvectors = np.linalg.eig(covariance_matrix)

    # 按特征值降序排序
    sorted_indices = np.argsort(eigenvalues)[::-1]
    sorted_eigenvalues = eigenvalues[sorted_indices]
    sorted_eigenvectors = eigenvectors[:, sorted_indices]

    # 选择前n_components个主成分
    selected_eigenvectors = sorted_eigenvectors[:, :n_components]

    # 进行PCA降维
    X_reduced = np.dot(X_scaled, selected_eigenvectors)

    # 计算主成分贡献率
    explained_variance_ratio = sorted_eigenvalues[:n_components] / np.sum(sorted_eigenvalues)

    return X_reduced, explained_variance_ratio

2、实现PCA函数

if __name__ == "__main__":
    # 构建示例数据
    X = np.array([
        [1, 2, 3],
        [4, 5, 6],
        [7, 8, 9],
        [10, 11, 12]
    ])

    # 进行PCA降维，保留两个主成分
    X_reduced, explained_variance_ratio = pca(X, n_components=2)

    # 输出降维后的数据
    print("降维后的数据：")
    print(X_reduced)

    # 输出主成分贡献率
    print("主成分贡献率：")
    print(explained_variance_ratio)