机器学习 - 数据降维 主成分分析PCA Principal Components Analysis(学习笔记)

PCA(主成分分析)是一种常用的数据降维技术,旨在减少数据维度的同时保持大部分信息。PCA通过找到最大化方差的投影方向,将高维数据映射到低维空间。这种方法有助于数据可视化和提升模型计算效率。PCA适用于线性结构的数据,而对于非线性数据,可以使用核主成分分析(KPCA)进行降维。PCA的优点包括简单计算和消除变量间影响,但可能会丢失次要主成分中的信息。
摘要由CSDN通过智能技术生成

数据降维技术中,应用最多的方法就是PCA(Principal Components Analysis)。数据降维,是指在某些限定条件下,降低随机变量个数,得到一组“不相关”主变量的过程。

PCA简介

目标:

寻找k(k<n)维新数据,使它们反映事物的主要特征。

核心:

在信息损失尽可能少的情况下,降低数据维度。

例如,要把三维数据降为二维数据,就需要把三维数据投影到一个平面,然后为了使损失的数据尽可能少,就希望三维数据的各点到这个平面的距离尽可能小。
我们可以把这个投影的线或面理解成主成分,而各点到它们的距离可以理解成损失的信息。

如何保留主要信息?

那就是投影后不同的数据要尽可能分得开(即不相关) 。这是因为维度很高的数据是有很多的相关性的,而我们希望数据尽可能少,那我们就要保证每个维度里的数据在不同的维度之间没有太多的关系,也就可以理解成上述所说的投影后不同的数据要尽可能分得开(即不相关) 。

如何实现?

使投影后数据的方差最大,因为方差越大数据也越分散。

作用?

1.减少模型分析数据量,提升处理效率,降低计算难度。

2.实现数据可视化。

计算过程:

1.原始数据预处理。(标准化 u=0,sigma=1)

from sklearn.preprocessing import StandardScaler 
X_norm = Sta
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值