无监督学习 - 主成分分析(Principal Component Analysis,PCA)

什么是机器学习

主成分分析(Principal Component Analysis,PCA)是一种常用的无监督学习方法,用于降低数据维度并发现数据中的主要结构。PCA的目标是通过线性变换将原始数据投影到一个新的坐标系,使得数据在新坐标系中的方差尽可能大,从而保留数据的主要信息。

PCA的基本步骤:

  1. 标准化数据: 如果数据的不同特征具有不同的尺度,需要对数据进行标准化,以确保每个特征对PCA的影响相等。
  2. 计算协方差矩阵: 计算数据集中各特征之间的协方差矩阵。
  3. 计算特征值和特征向量: 对协方差矩阵进行特征值分解,得到特征值和相应的特征向量。
  4. 选择主成分: 将特征值按降序排列,选择前k个特征值对应的特征向量,构成投影矩阵。
  5. 投影: 将原始数据投影到选定的主成分上,得到降维后的数据。

Python中使用scikit-learn进行PCA的简单示例:

from sklearn.decomposition import PCA
import numpy as np
import matplotlib.pyplot as plt

# 生成随机数据集
np.random.seed(42)
data = np.random.rand(100, 2) * 5  # 生成一个二维数据集

# 创建PCA模型并拟合数据
pca = PCA(n_components=2)
pca.fit(data)

# 获取主成分和方差贡献
components = pca.components_
explained_variance_ratio = pca.explained_variance_ratio_

# 打印主成分和方差贡献
print("主成分:")
print(components)
print("\n方差贡献:")
print(explained_variance_ratio)

# 绘制原始数据和主成分
plt.scatter(data[:, 0], data[:, 1], label='原始数据')
plt.quiver(0, 0, components[0, 0], components[0, 1], angles='xy', scale_units='xy', scale=1, color='r', label='主成分1')
plt.quiver(0, 0, components[1, 0], components[1, 1], angles='xy', scale_units='xy', scale=1, color='b', label='主成分2')
plt.title('PCA')
plt.xlabel('特征1')
plt.ylabel('特征2')
plt.legend()
plt.show()

这个例子中,通过PCA找到了数据的主成分,并展示了主成分的方向。在实际应用中,可以选择适当的主成分数量来实现降维,减少数据的维度,同时保留数据的主要结构。

  • 12
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值