PCA 的数学原理和可视化效果

PCA(主成分分析)是机器学习中的降维方法,通过最大化数据在低维空间的方差来保留信息。PCA算法包括数据零均值化、计算协方差矩阵、找特征值和特征向量等步骤。最终,PCA找到一组正交基,使得数据投影后的方差最大,同时各字段间协方差为0。可视化效果显示,PCA能够突出主要成分,简化复杂数据的表示。
摘要由CSDN通过智能技术生成

本文结构:

  • 什么是 PCA
  • 数学原理
  • 可视化效果

1. 什么是 PCA

PCA (principal component analysis, 主成分分析) 是机器学习中对数据进行降维的一种方法。

例如,我们有这样的交易数据,它有这几个特征:(日期, 浏览量, 访客数, 下单数, 成交数, 成交金额),从经验可知,“浏览量”和“访客数”,“下单数”和“成交数”之间会具有较强的相关关系。这种情况下,我们保留其中的两个维度就可以保证原有的信息完整。

但是当我们在做降维的时候,会丢失掉一部分信息。

例如, 下面 5 个数据,如果向 x 轴投影,那么左边的两个点会重叠在一起,中间的两个点也会重叠在一起,5 个点结果投影到 x 轴后就剩下 3 个点了,这是一种严重的信息丢失:

所以我们希望找到低维空间的方向上,原数据映射后的方差尽可能的大,也就是意味着数据点会尽量分散开来,这样可以保留更多的信息。

PCA 追求的是在降维之后能够最大化保持数据的内在信息,并通过衡量在投影方向上的数据方差的大小来衡量该方向的重要性,它是丢失原始数据信息最少的一种线性降维方式。

PCA的算法步骤:

设有 m 条 n

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值