主成分分析(Principal Component Analysis, PCA)

主成分分析(PCA)是一种常用于数据降维的方法,适用于处理高维数据。PCA通过对原始数据进行线性变换,找到一组新的基,使得转换后的数据在新基下各维度线性无关,同时最大化保留数据的方差。在机器学习中,PCA广泛用于特征提取后的降维操作,以减少计算复杂性和存储需求。PCA的优缺点包括:简单易实现,但可能会丢失一些次要的但重要的信息。PCA的实现可以使用特征值分解或奇异值分解,并且有多种变种来解决非线性、内存限制和稀疏数据的问题。
摘要由CSDN通过智能技术生成

主成分分析,2019-03-26


参考博文
https://blog.csdn.net/hustqb/article/details/78394058
https://www.cntofu.com/book/85/ml/clean-feature/pca.md
PCA是最重要的降维方法之一,在数据压缩、消除冗余和数据噪音消除等领域都有着广泛的应用。

1. 诞生原因
在处理高维数据时,为简化计算量以及存储空间,需要对高维数据进行一定程度上的降维,同时需要尽量使数据不失真

2. 常用降维方法

  • PCA:Principal Component Analysis,主成分分析
  • ICA:Independent Component Analysis,独立成分分析

3. 用途
在机器学习中,用途广泛,可用于图像、语言、通信的分析处理(常用语机器学习中提取特征之后的降维操作)

4. 基本原理
找到一组基,这组基张成一个特征空间,将原始数据映射到新的该空间,申城新的数据

5. PCA-具体原理
通过线性变换,将原始数据变换为一组各维度线性无关的表示,以此来提取数据的主要线性分量
【需要用到:方差、协方差】

6. PCA-实现方法

  • 特征值分解(局限较多,比如变换的矩阵必须是方阵)
  • 奇异值(SVD)分解

7. PCA-算法步骤
设有n条m维数据,要降为k维:

  • 将原始数据按列组成m行n列矩阵X;
  • 将X的每一行(代表一个属性字段)进行零均值化;
  • 求出协方差矩阵C = 1/m * (X*X^T)࿱
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值