《机器学习公式推导与代码实现》chapter18-主成分分析PCA

本文介绍了主成分分析法(PCA)这一经典降维算法,包括PCA的基本思想、计算流程及其实现。通过numpy库自定义实现PCA算法,并与sklearn库的PCA功能进行了对比。PCA在数据压缩和去噪中具有重要应用,文中展示了PCA如何在鸢尾花数据集上进行降维并可视化。
摘要由CSDN通过智能技术生成

《机器学习公式推导与代码实现》学习笔记,记录一下自己的学习过程,详细的内容请大家购买作者的书籍查阅。

主成分分析法

降维是区别于聚类的另一种无监督学习算法,主成分分析(principal component analysis, PCA)是一种经典的降维算法。PCA是一种应用广泛的数据分析和降维方法。

PCA通过正交变换将一组由线性相关变量表示的数据转换为几个由线性无关变量表示的数据,这几个线性无关变量就是主成分。

针对高维数据的降维问题,PCA的基本思路如下:首先将需要降维的数据的各个变量标准化(规范化)为均值为0、方差为1的数据集,然后对标准化后的数据进行正交变换,将原来的数据转换为由若干个线性无关向量表示的新数据。这些新向量表示的数据不仅要求相互线性无关,而且需要所包含的信息量最大。

作为一种多元统计分析方法,PCA在数据压缩和数据去噪等领域都有广泛应用。

1 PCA原理推导

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
综上所述,PCA的计算流程为:
在这里插入图片描述
在这里插入图片描述

2 PCA算法实现

2.1 基于numpy实现pca算法

按照上述算法流程中的(1)-(5)步骤实现即可:

import numpy as np

# PCA算法类
class PCA:
    def calc_cov(self, X): # 定义协方差矩阵计算方法
        n = X.shape[0] # 样本量
        X = (X - np.mean(X, axis=0)) # 这里没有进行标准化操作,做了中心化操作
        return 1 / n * np.matmul(X.T, X)
    
    def pca(self, X, n_components): # PCA算法实现:输入要进行PCA的矩阵和指定的主成分个数
        cov_matrix = self.calc_cov(X) # 计算协方差矩阵
        eigenvalues, eigenvectors = np.linalg.eig(cov_matrix) # np.linalg.eig计算方阵的特征值和右特征向量
        idx = eigenvalues.argsort()[::-1] # [::1] 表示取整个数组,但按逆序排列
        eigenvectors = eigenvectors[:, idx]
        eigenvectors = eigenvectors[:, :n_components] # 取最大的前n_component组
        return np.matmul(X, eigenvectors) # Y=PX转换

数据测试

from sklearn import datasets
from sklearn import datasets
import matplotlib.pyplot as plt

iris = datasets.load_iris()
X, y = iris.data, iris.target

X_trans = PCA().pca(X, 2) # 将数据降维到2个主成分

colors = ['navy', 'turquoise', 'darkorange'] # 颜色列表
for c, i, target_name in zip(colors, [0, 1, 2], iris.target_names):
    plt.scatter(X_trans[y == i, 0], X_trans[y == i, 1], color=c, lw=2, label=target_name)
plt.legend()
plt.show()

在这里插入图片描述

2.2 基于sklearn的pca算法实现

sklearn中的pca基于奇异值分解算法实现

from sklearn import decomposition

pca = decomposition.PCA(n_components=2)
pca.fit(X)
X_trans = pca.transform(X) # 拟合模型并将模型用于数据X

colors = ['navy', 'turquoise', 'darkorange'] # 颜色列表
for c, i, target_name in zip(colors, [0, 1, 2], iris.target_names):
    plt.scatter(X_trans[y == i, 0], X_trans[y == i, 1], color=c, lw=2, label=target_name)
plt.legend()
plt.show()

在这里插入图片描述

笔记本_Github地址

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Jiawen9

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值