主成分分析 PCA

最新推荐文章于 2024-04-26 09:55:35 发布

m0_63918510

最新推荐文章于 2024-04-26 09:55:35 发布

阅读量851

点赞数 19

文章标签： python 数据分析开发语言

本文链接：https://blog.csdn.net/m0_63918510/article/details/135084428

版权

特征维度约减的概念：

特征维度约减是指通过某种方法或技术将数据的特征维度从高维空间减少到低维空间的过程。在机器学习和数据分析中，特征维度约减可以带来多方面的好处，包括：

降低计算复杂度：高维数据集的处理和计算往往非常耗时，而通过特征维度约减可以减少计算的复杂度，提高算法的效率。
降噪和去冗余：高维数据集通常包含了很多次要信息和冗余特征，通过约减特征维度可以去除这些无用信息，提高模型的准确性和泛化能力。
可视化和理解性：高维数据集很难直接可视化，而通过特征维度约减可以将数据映射到低维空间，使得数据可视化和理解更加容易。

一些常见的特征维度约减方法包括主成分分析（PCA）、线性判别分析（LDA）、t-SNE、自编码器等。这些方法可以根据数据的特点和需求选择合适的维度约减方法，并根据数据的性质减少特征维度，以便更好地分析和处理数据。

为何要维度约减：

在机器学习和数据挖掘中，维度（特征）的数量往往非常大，这会导致很多问题。具体来说，大量的特征会带来以下问题：

1. 计算和存储成本高：大量的特征会导致模型的计算和存储成本变得很高，这使得模型的训练和使用变得非常困难。

2. 维度灾难：随着维度的增加，数据空间变得非常大，而训练集的样本数量往往远远不够填满这个空间，因此导致了维度灾难问题，即数据的稀疏性增加，模型的泛化能力下降。

3. 过拟合：大量的特征还会增加过拟合的风险，因为模型可能学习到更多噪声特征而不是真正有用的特征。

因此，为了减少计算和存储成本，提高模型的泛化能力和准确性，降低过拟合的风险，降低维度是一种非常重要的方法。通过特征维度约减方法降低特征维度的数量，可以达到这些目的，提高机器学习和数据挖掘模型的性能和效率。

常规维度约减方法

常用的维度约减方法包括：

1. 主成分分析（PCA）：PCA是一种非监督学习方法，可以用来将高维数据转换为低维数据。它的主要思想是找到数据的主成分，即可以最大程度地解释数据变量的方差的方向。通过对数据进行投影，可以将数据降到主成分所构成的低维子空间上。

2. 线性判别分析（LDA）：LDA是一种监督学习方法，它可以在分类任务中有效地降低维度。LDA的主要思想是将数据投影到一个低维线性空间上，使得同一类别的数据尽可能地接近，不同类别的数据尽量远离。

3. 流形学习：流形学习是一种非线性的特征约减方法，它的主要思想是将数据集看作是存在于低维流形空间上的样本，通过学习流形结构来进行维度约减。常用算法包括t-SNE和LLE等。

4. 奇异值分解（SVD）：SVD是一种数学分解技术，可以将矩阵分解为三个矩阵的乘积，从而实现维度约减。它可以应用到PCA等算法中。

5. 自编码器：自编码器是一种无监督学习方法，可以用于特征学习和维度约减。它的主要思想是将输入数据压缩到一定的低维空间中，并通过解码器恢复到原始空间中。这些解码器被训练成最小化重构误差。

维度约减的方法取决于数据集的属性和所需的任务。需要根据实际情况选择合适的维度约减方法，以最大程度地提高算法的效率和准确性。

PCA

PCA（Principal Component Analysis）是一种常用的无监督学习方法，用于数据的降维和特征提取。它的主要目标是找到数据中的主要特征或主成分，通过保留最重要的信息降低数据的维度，同时尽量减少信息损失。

PCA的核心思想是找到一个新的特征空间，使得数据在该空间投影具有最大的方差，以此来捕捉数据间的主要结构。实际应用中，PCA通常通过特征值分解或奇异值分解来实现。

PCA的应用包括但不限于以下几个方面：

1. 数据降维：将高维数据降维到低维空间，便于可视化和数据处理分析。

2. 去噪声：通过保留较大方差的主成分来消除数据中的噪声干扰。

3. 特征提取：用于提取数据中的重要特征，减少特征的数量，提高训练模型的效率。

4. 可视化：在二维或三维空间中展示数据，以便更好地理解数据分布特征。

尽管PCA在许多领域被广泛应用，但在实际使用中也存在一些限制，比如对非线性数据的处理能力较弱。因此，在选择降维方法时，需要根据具体的数据特点和任务需求来决定是否使用PCA以及如何使用。

PCA核心方法

PCA的核心方法是通过特征值分解（或奇异值分解）来求解数据的主成分。

具体的步骤如下：

1. 标准化数据：将原始数据进行标准化处理，使得每个特征的均值为0，方差为1。这一步可以确保每个特征在计算距离时的权重是相等的。

2. 计算协方差矩阵：计算标准化后的数据集的协方差矩阵。协方差矩阵的每个元素表示两个特征之间的相关性。

3. 特征值分解：对协方差矩阵进行特征值分解（或奇异值分解）。特征值分解可以将协方差矩阵分解成特征值和对应的特征向量。

4. 选择主成分：根据特征值的大小，选择前k个特征值及其对应的特征向量作为主成分。特征值表示了数据在该方向上的方差大小，特征向量表示了数据在该方向上的投影权重。

5. 数据投影：将原始数据集投影到所选的主成分上，得到降维后的数据集。投影可通过将原始数据乘以所选主成分的转置矩阵来完成。

PCA的核心方法是通过对数据的协方差矩阵进行特征值分解，获得特征值和特征向量，进而选择主成分进行数据投影，实现维度的约减。这样可以保留大部分的数据信息，同时减少数据的维度，方便后续的分析和挖掘。

当应用PCA降维技术到图像数据时，可以得到一些有趣的图像解释。

首先，假设我们有一个由像素组成的图像数据集，每个图像被表示为一个高维向量。我们可以使用PCA将这些高维向量降低到较低维度的向量，以得到一种更紧凑的表示。

通过PCA降维后，我们可以选择最重要的主成分来重建原始图像。这意味着我们可以用较少的信息来近似地表示原始图像。通过选择不同数量的主成分，我们可以观察到图像保留的细节以及失去的信息。

更具体地说，我们可以计算每个主成分的贡献率，即该主成分解释数据方差的程度。通过绘制贡献率的累积和，我们可以观察到随着保留更多的主成分，所解释的方差增加的情况。从图像的角度来看，我们可以看到图像的细节逐渐变得更清晰。

此外，我们还可以使用PCA降维将图像投影到低维空间中，并通过逆变换将其重建。这样做可以产生一些有趣的结果，例如使用较少的主成分进行重建可能会导致图像模糊或失真，而使用更多的主成分可能会产生更高质量的重建图像。

总的来说，通过PCA降维和重建图像，我们可以观察到图像在不同维数下的变化和信息丢失情况，从而更好地理解和可视化图像数据的特征。

这里提供一个关于PCA的简单列子：

import numpy as np
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA

# 生成一些二维数据，这里以二维正态分布作为例子
np.random.seed(0)
mean = np.array([0.0, 0.0])
cov = np.array([[1.0, 0.8], [0.8, 1.0]])
data = np.random.multivariate_normal(mean, cov, 100)

# 绘制原始数据的散点图
plt.figure(figsize=(6, 6))
plt.scatter(data[:, 0], data[:, 1], alpha=0.8)
plt.title('Original Data')
plt.xlabel('X')
plt.ylabel('Y')

# 使用PCA降维至一维
pca = PCA(n_components=1)
data_pca = pca.fit_transform(data)

# 将降维后的数据反变换回原始空间
data_inv = pca.inverse_transform(data_pca)

# 绘制降维后的数据点
plt.figure(figsize=(6, 6))
plt.scatter(data_pca, np.zeros_like(data_pca), alpha=0.8)
plt.title('Data after PCA')
plt.xlabel('Principal Component 1')
plt.axhline(0, color='black',linewidth=0.8)
plt.yticks([])

# 反变换后的数据点与原始数据点重合
plt.figure(figsize=(6, 6))
plt.scatter(data_inv[:, 0], data_inv[:, 1], alpha=0.8, label='Inverse Transformed Data')
plt.scatter(data[:, 0], data[:, 1], alpha=0.8, label='Original Data')
plt.title('Inverse Transformed Data vs. Original Data')
plt.xlabel('X')
plt.ylabel('Y')
plt.legend()

plt.show()

在这个例子中，我们首先生成了一组二维数据，然后使用 PCA 对数据进行降维，并且展示了降维后的效果。你可以在 PyCharm 中新建一个 Python 文件，将上述代码复制粘贴到文件中，并运行该程序来查看 PCA 的效果。

m0_63918510

关注

19
点赞
踩
23

收藏

觉得还不错? 一键收藏
1
评论
主成分分析 PCA

它的主要目标是找到数据中的主要特征或主成分，通过保留最重要的信息降低数据的维度，同时尽量减少信息损失。这些方法可以根据数据的特点和需求选择合适的维度约减方法，并根据数据的性质减少特征维度，以便更好地分析和处理数据。PCA的核心方法是通过对数据的协方差矩阵进行特征值分解，获得特征值和特征向量，进而选择主成分进行数据投影，实现维度的约减。2. 维度灾难：随着维度的增加，数据空间变得非常大，而训练集的样本数量往往远远不够填满这个空间，因此导致了维度灾难问题，即数据的稀疏性增加，模型的泛化能力下降。
复制链接

扫一扫