机器学习：PCA算法代码原理，优缺点及代码实现

夜清寒风

于 2024-09-05 20:18:33 发布

阅读量552

点赞数 14

文章标签：机器学习算法人工智能学习

本文链接：https://blog.csdn.net/mohanyelong/article/details/141939032

版权

概述：

PCA，即主成分分析法，是一个非监督的机器学习算法，是一种用于探索高维数据结构的技术，主要用于对数据的降维，通过降维可以发现更便于人理解的特征，加快对样本有价值信息的处理速度，此外还可以应用于可视化（降到二维）和去噪。基本原理是通过线性变换将原始数据投影到新的坐标系，使得投影后的数据方差最大。 PCA算法所要达到的目标是，降维后的数据所损失的信息量应该尽可能的少。

PCA算法的基本原理可以概括为以下几个步骤：

标准化数据：由于PCA对数据的尺度敏感，因此在进行PCA之前，通常需要对数据进行标准化处理，确保每个特征的均值为0，标准差为1。
计算协方差矩阵：协方差矩阵描述了数据集中各特征之间的线性关系。对于标准化后的数据，协方差矩阵的元素是特征之间的协方差。
计算协方差矩阵的特征值和特征向量：特征值和特征向量反映了数据在不同方向上的变异程度。特征向量表示数据的主要变化方向，而特征值表示在这些方向上的变化量。
选择主成分：根据特征值的大小，选择最重要的几个特征向量，这些特征向量对应的特征值最大，它们代表了数据中最大的方差。这些特征向量就是主成分。
构造新的特征空间：将原始数据投影到选定的主成分上，得到新的降维后的数据集。这个过程实际上是将数据转换到一个新的坐标系中，这个新坐标系的基是选定的主成分。
解释结果：降维后的数据可以用于进一步的分析，如聚类、分类等。同时，可以通过分析主成分来理解原始数据中的主要变异来源。

PCA算法优缺点：

PCA的主要优点包括：

降低数据维度，简化模型：PCA通过减少特征的数量，减轻了计算负担，提高了模型的计算效率，并有助于避免过拟合，使模型更加稳健。
去除噪声和冗余信息：PCA有助于去除数据中的噪声和冗余信息，提高数据质量。
保留数据中的主要变化模式：通过选择方差较大的特征向量，PCA能够保留数据中的主要信息，实现有效的降维。
无参数限制：PCA是一种无监督学习方法，不需要依赖数据的标签信息，适用于探索性数据分析。

PCA缺点：

信息损失：在降维过程中，可能会丢失一些重要信息，因为只保留了部分主成分。
对非线性数据效果不佳：PCA假设数据之间的相关性是线性的，对于非线性关系的数据，PCA可能无法有效处理。
对异常值敏感：PCA可能会受到异常值的影响，因为其基于方差最大化的原则，异常值可能会对主成分产生较大影响。
计算复杂度：对于大规模高维数据集，PCA需要计算协方差矩阵和特征值分解，计算复杂度较高。

代码实现

# 导入必要的库
import pandas as pd
from sklearn.decomposition import PCA
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn import metrics

# 读取Excel文件中的数据
data = pd.read_excel("hua.xlsx")

# 选取除最后一列之外的所有列作为特征变量x
x = data.iloc[:, :-1]

# 选取最后一列作为目标变量y
y = data.iloc[:, -1]

# 创建PCA对象，设置保留90%的方差
pca = PCA(n_components=0.90)

# 对特征变量x进行PCA拟合
pca.fit(x)

# 打印保留的方差的累计百分比
print("百分比:{}".format(sum(pca.explained_variance_ratio_)))

# 对特征变量x进行PCA转换，降维后的新特征变量为new_x
new_x = pca.fit_transform(x)

# 将数据集分为训练集和测试集，测试集占20%，随机状态设为0
x_train, x_test, y_train, y_test = train_test_split(new_x, y, test_size=0.2, random_state=0)

# 创建逻辑回归模型对象
lr = LogisticRegression()

# 使用训练集数据训练逻辑回归模型
lr.fit(x_train, y_train)

# 使用训练好的模型对训练集数据进行预测，并打印分类报告
predict_train = lr.predict(x_train)
print(metrics.classification_report(y_train, predict_train))

# 使用训练好的模型对测试集数据进行预测，并打印分类报告
predict_test = lr.predict(x_test)
print(metrics.classification_report(y_test, predict_test))

在实际应用中，PCA可以用于图像识别、基因组学数据分析、金融市场分析等多个领域。例如，在图像处理中，PCA可以用于特征提取和图像压缩；在基因组学中，PCA可以帮助分析基因表达数据，揭示基因与疾病之间的关系。但在使用PCA时，需要注意数据的预处理，如标准化处理，以及选择合适的主成分数量，以达到最佳的降维效果。

总的来说，PCA是一种有效的降维工具，但需要根据具体的数据特点和分析目标来决定是否使用以及如何使用。在某些情况下，可能需要结合其他方法或对PCA进行改进，以适应特定的数据分析需求。