基于Python的人工智能应用案例系列（6）：主成分分析

最新推荐文章于 2024-10-18 00:00:00 发布

会飞的Anthony

最新推荐文章于 2024-10-18 00:00:00 发布

阅读量583

点赞数 7

分类专栏：人工智能信息系统文章标签： python 人工智能开发语言

本文链接：https://blog.csdn.net/ljd939952281/article/details/142151076

版权

人工智能同时被 2 个专栏收录

186 篇文章 6 订阅

订阅专栏

信息系统

161 篇文章 0 订阅

订阅专栏

在本篇文章中，我们将探讨主成分分析（Principal Component Analysis, PCA）。PCA是一种无监督学习算法，广泛应用于降维、数据可视化、噪声过滤、特征提取等多个领域。PCA的核心思想是通过减少数据的维度，保留数据中最具代表性的特征，从而简化复杂数据，并揭示其中的结构。

1. 主成分分析介绍

PCA是一种快速灵活的降维方法，能够通过线性变换将高维数据投影到低维空间中，并且尽可能保留数据中的方差。PCA的目标是找到一组主轴（principal axes），这些主轴可以最大限度地解释数据中的方差。

我们先从一个简单的二维数据集开始，以可视化PCA的工作原理。

import numpy as np
import matplotlib.pyplot as plt

# 生成随机二维数据
rng = np.random.RandomState(1)
X = np.dot(rng.rand(2, 2), rng.randn(2, 200)).T
plt.scatter(X[:, 0], X[:, 1])
plt.axis('equal')
plt.show()

通过观察数据的散点图，我们可以直观感受到数据中的主要趋势。接下来，我们使用Scikit-Learn中的PCA算法来计算这些数据的主成分。

from sklearn.decomposition import PCA

# 使用PCA计算主成分
pca = PCA(n_components=2)
pca.fit(X)

# 打印主成分和解释的方差
print("主成分:\n", pca.components_)
print("解释的方差:\n", pca.explained_variance_)

这一步计算得出了数据的主成分（表示数据的主要方向）和解释的方差（表示这些方向上数据的分布）。接下来，我们将这些主成分绘制在数据上。

# 绘制主成分向量
def draw_vector(v0, v1, ax=None):
    ax = ax or plt.gca()
    arrowprops = dict(arrowstyle='->', linewidth=2, shrinkA=0, shrinkB=0)
    ax.annotate('', v1, v0, arrowprops=arrowprops)

# 绘制数据和主成分
plt.scatter(X[:, 0], X[:, 1], alpha=0.2)
for length, vector in zip(pca.explained_variance_, pca.components_):
    v = vector * 3 * np.sqrt(length)
    draw_vector(pca.mean_, pca.mean_ + v)
plt.axis('equal')
plt.show()

从图中可以看出，主成分轴显示了数据中的主要方向，较长的向量表示该方向上方差较大，意味着这个方向上的信息量更多。

2. PCA降维示例

PCA的一个重要应用是降维。降维的目标是通过舍弃较小的主成分来减少数据的维度，同时尽可能保留数据中的信息。

我们将使用PCA将数据从二维降到一维，并观察降维后的效果。

# 使用PCA将数据降到1维
pca = PCA(n_components=1)
X_pca = pca.fit_transform(X)
print("原始数据形状:", X.shape)
print("降维后数据形状:", X_pca.shape)

# 将降维后数据映射回二维空间并可视化
X_new = pca.inverse_transform(X_pca)
plt.scatter(X[:, 0], X[:, 1], alpha=0.2)
plt.scatter(X_new[:, 0], X_new[:, 1], alpha=0.8)
plt.axis('equal')
plt.show()

通过这一步，我们可以看到降维后的数据投影回二维空间时，大部分信息仍然得到了保留。这表明，尽管我们舍弃了一个维度，数据的主要结构并没有被破坏。

3. PCA在高维数据中的应用：手写数字数据集

在高维数据中，PCA的降维效果更加显著。为了演示PCA在高维数据中的应用，我们使用Scikit-Learn的手写数字数据集。该数据集包含1,797个样本，每个样本是一个8×8像素的手写数字图像。

from sklearn.datasets import load_digits

# 加载手写数字数据集
digits = load_digits()
print(digits.data.shape)  # 输出 (1797, 64)

为了简化数据的可视化，我们将64维的数据降到二维。

# 使用PCA将数据从64维降到2维
pca = PCA(n_components=2)
projected = pca.fit_transform(digits.data)
print("降维后数据形状:", projected.shape)

# 可视化降维后的数据
plt.scatter(projected[:, 0], projected[:, 1], c=digits.target, edgecolor='none', alpha=0.5, cmap=plt.cm.get_cmap('Accent', 10))
plt.xlabel('主成分1')
plt.ylabel('主成分2')
plt.colorbar()
plt.show()

通过降维后的可视化，我们可以看到不同数字在二维空间中的分布。尽管数据的原始维度很高，PCA仍然能够通过两个主成分展示数据中的主要结构。

4. 如何选择主成分的数量

在实践中，选择合适的主成分数量非常重要。我们可以通过累计解释方差来确定需要保留的主成分数量。累计解释方差表示所选择的主成分可以解释数据中总方差的比例。

# 计算累计解释方差
pca = PCA().fit(digits.data)
plt.plot(np.cumsum(pca.explained_variance_ratio_))
plt.xlabel('主成分数量')
plt.ylabel('累计解释方差')
plt.show()

从图中可以看到，前10个主成分可以解释数据中约75%的方差，而前50个主成分几乎可以解释全部方差。这表明，我们可以通过减少维度来显著减少数据的复杂性，同时保留大部分信息。

5. PCA用于噪声过滤

PCA不仅可以用于降维，还可以用于噪声过滤。通过只保留主要的主成分，我们可以去除数据中的噪声。

# 在手写数字数据上添加噪声
np.random.seed(42)
noisy = np.random.normal(digits.data, 4)
plot_digits(noisy)

# 使用PCA过滤噪声
pca = PCA(0.50).fit(noisy)  # 保留50%的方差
components = pca.transform(noisy)
filtered = pca.inverse_transform(components)
plot_digits(filtered)

通过PCA降噪后，手写数字的图像变得更加清晰，噪声得到了显著过滤。

结语

在本篇文章中，我们展示了主成分分析（PCA）在降维、数据可视化和噪声过滤中的应用。PCA是一种强大的工具，能够帮助我们简化高维数据，同时保留数据的主要结构。无论是在特征提取还是在数据预处理方面，PCA都提供了一个高效的解决方案。

希望这篇文章能帮助您更好地理解PCA的工作原理和应用场景。敬请期待本系列的更多案例！

如果你觉得这篇博文对你有帮助，请点赞、收藏、关注我，并且可以打赏支持我！

欢迎关注我的后续博文，我将分享更多关于人工智能、自然语言处理和计算机视觉的精彩内容。

谢谢大家的支持！