无监督学习 - 主成分分析（Principal Component Analysis，PCA）

最新推荐文章于 2024-03-20 12:11:18 发布

草明

最新推荐文章于 2024-03-20 12:11:18 发布

阅读量496

点赞数 12

分类专栏：数据结构与算法文章标签：学习机器学习人工智能算法

本文链接：https://blog.csdn.net/galoiszhou/article/details/135616499

版权

数据结构与算法专栏收录该内容

86 篇文章 2 订阅

订阅专栏

什么是机器学习

主成分分析（Principal Component Analysis，PCA）是一种常用的无监督学习方法，用于降低数据维度并发现数据中的主要结构。PCA的目标是通过线性变换将原始数据投影到一个新的坐标系，使得数据在新坐标系中的方差尽可能大，从而保留数据的主要信息。

PCA的基本步骤：

标准化数据：如果数据的不同特征具有不同的尺度，需要对数据进行标准化，以确保每个特征对PCA的影响相等。
计算协方差矩阵：计算数据集中各特征之间的协方差矩阵。
计算特征值和特征向量：对协方差矩阵进行特征值分解，得到特征值和相应的特征向量。
选择主成分：将特征值按降序排列，选择前k个特征值对应的特征向量，构成投影矩阵。
投影：将原始数据投影到选定的主成分上，得到降维后的数据。

Python中使用scikit-learn进行PCA的简单示例：

from sklearn.decomposition import PCA
import numpy as np
import matplotlib.pyplot as plt

# 生成随机数据集
np.random.seed(42)
data = np.random.rand(100, 2) * 5  # 生成一个二维数据集

# 创建PCA模型并拟合数据
pca = PCA(n_components=2)
pca.fit(data)

# 获取主成分和方差贡献
components = pca.components_
explained_variance_ratio = pca.explained_variance_ratio_

# 打印主成分和方差贡献
print("主成分：")
print(components)
print("\n方差贡献：")
print(explained_variance_ratio)

# 绘制原始数据和主成分
plt.scatter(data[:, 0], data[:, 1], label='原始数据')
plt.quiver(0, 0, components[0, 0], components[0, 1], angles='xy', scale_units='xy', scale=1, color='r', label='主成分1')
plt.quiver(0, 0, components[1, 0], components[1, 1], angles='xy', scale_units='xy', scale=1, color='b', label='主成分2')
plt.title('PCA')
plt.xlabel('特征1')
plt.ylabel('特征2')
plt.legend()
plt.show()

这个例子中，通过PCA找到了数据的主成分，并展示了主成分的方向。在实际应用中，可以选择适当的主成分数量来实现降维，减少数据的维度，同时保留数据的主要结构。

草明

关注

12
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
无监督学习 - 主成分分析（Principal Component Analysis，PCA）

是一种常用的方法，用于降低数据维度并发现数据中的主要结构。PCA的目标是通过线性变换将原始数据投影到一个新的坐标系，使得数据在新坐标系中的方差尽可能大，从而保留数据的主要信息。
复制链接

扫一扫