独家 | 主成分分析用于可视化(附链接)

本文详细介绍了如何利用主成分分析(PCA)进行数据可视化,包括PCA在降维和理解高维数据分布中的作用。通过实例展示了PCA如何帮助确定降维参数,并通过散点图和解释方差可视化来洞察数据结构。PCA的解释性方差在机器学习模型选择和数据压缩方面具有重要意义。
摘要由CSDN通过智能技术生成

6b26b38956c1f426aa0b36eb6159375d.png

作者:Adrian Tam, Ray Hong, Jinghan Yu, Brendan Artley
翻译:汪桉旭
校对:吴振东


本文约3300字,建议阅读5分钟
本文教你了解了如何使用主成分分析来可视化数据。

标签:主成分分析

主成分分析是一种无监督的机器学习技术。可能它最常见的用处就是数据的降维。主成分分析除了用于数据预处理,也可以用来可视化数据。一图胜万言。一旦数据可视化,在我们的机器学习模型中就可以更容易得到一些洞见并且决定下一步做什么。

在这篇教程中,你将发现如何使用PCA可视化数据,并且使用可视化来帮助确定用于降维的参数。

读完这篇教程后,你会了解:

  • 如何使用PCA可视化高维数据

  • 什么是PCA中的解释性方差

  • 从高维数据PCA的结果中直观地观察解释性方差

让我们一起开始吧

b5928113d96958bf31fcff9914a51dcf.png

教程概览

这篇教程分成两部分,分别是:

  • 高维数据的散点图

  • 可视化解释性方差

前提

在这篇教程学习之前,我们假设你已经熟悉:

  • 如何从python中的Scratch计算PCA

  • Python中用于降维的PCA

高维数据的散点图

可视化是从数据中得到洞见的关键一步。我们可以通过可视化学习到一个模式是否可以被观察到,因此估计哪个机器学习模型是合适的。

用二维数据描述事物是容易的。正常地,一个有x轴y轴的散点图就是二维的。用三维数据描述事物有一点挑战性但不是不可能的。例如,在matplotlib中可以绘制三维图。唯一的问题是在纸面或者屏幕上,我们每次只能从一个角度或者投影来看三维图。在matplotlib中,视图由仰角和方位角控制。用四维或者五维数据来描述事物是不可能的,因为我们生活在三维世界,并且不知道在这些高维度中数据看起来是什么样的。

这就是诸如PCA的数据降维技术发挥作用的地方。我们可以将数据维度降低到二维或者三维以便将其可视化。我们从一个例子开始。

我们使用红酒数据集,这个数据集是包括13个特征和3种类别的分类数据集(也就是说这个数据集是13维的)。这里有178个样本:

5e70f738f6edf37085b10119c9a82258.png

在13个特征中,我们可以使用matplotlib挑选任意两个(我们使用c 参数对不同的类进行颜色编码):

fa5bc447ab3eb35d525d48aeb7b702f4.png

b57f7d743cdc8dc7f60b86ede368f6b5.png

或者我们也可以

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值