5分钟内可视化解释PCA(主成分分析)

  尺寸超过3个时创建2D图表

  

5分钟内可视化解释PCA(主成分分析)

  > Photo by Steve Johnson from Pexels

  每个人都了解一个好的图表。

  但是,我们如何显示4维以上的数据?

  一维可视化集群是小菜一碟。

  

5分钟内可视化解释PCA(主成分分析)

  > Too easy

  在二维中查找聚类很容易。

  

5分钟内可视化解释PCA(主成分分析)

  > Easy

  看到3维的星团……开始糟透了。 我们可以编辑节点大小或不透明度来区分第三维。

  

5分钟内可视化解释PCA(主成分分析)

  > Not so easy

  5维? 忘掉它。

  但是…PCA可以将您的5维投影到2维,而不会丢失(很多)信号。

  

5分钟内可视化解释PCA(主成分分析)

  > imgflip/i/45be7u

  什么是5秒PCA?

  PCA通过将相关要素组合到新要素中,将较高维度的数据投影到较低维度。

  相互关联的功能在视觉上模糊了群集,无助于训练模型并增加了复杂性。 所以没什么大不了的。

  使用PCA在图片中实现3D到2D

  与3D图表相比,我每天都更喜欢2D图表。

  我们将使用PCA将3D数据转换为2D数据。 无论您有10个尺寸还是100个尺寸,该过程都是相同的。

  我们将跳过数学,只是尝试直观地理解这一点。

  1.绘制数据

  假设我们的数据如下所示。 左侧是特征x,y和z。 在右侧,绘制了这些点。

  

5分钟内可视化解释PCA(主成分分析)

  假设标绘的卖游戏数据点已缩放。

  2.查找数据中心

  这是每个特征的平均值:x,y和z。

  

5分钟内可视化解释PCA(主成分分析)

  3.移动数据点,使中心现在位于(0,0)

  笔记数据点的相对位置不变。

  

5分钟内可视化解释PCA(主成分分析)

  4.找到最合适的线

  最佳拟合线称为PC1(主要组件1)。

  

5分钟内可视化解释PCA(主成分分析)

  PC1使点与最合适的直线成直角的距离的平方距离之和最大。

  PC1是x,y和z的线性组合,表示它包含每个x,y和z的一部分。

  5.查找PC2

  PC2是垂直于PC1(垂直相交)的最佳拟合线。

  

5分钟内可视化解释PCA(主成分分析)

  PC2也是每个x,y和z的线性组合。

  现在,PC1和PC2都解释了我们功能的某些差异。

  通过计算"加载分数",可以测量每台PC的相对重要性x,y和z。

  6.旋转图表,使PC1为x轴,PC2为y轴

  旋转后,我们的数据现在只有二维! 而且群集很容易发现。

  

5分钟内可视化解释PCA(主成分分析)

  如果开始时有3个以上尺寸怎么办?

  数据集中的PC数量与功能或示例中较少的PC数量相同。

  您可以通过比较特征值(到原点的距离的平方和)并构造碎石图来计算每个PC的解释方差。 根据定义,PC2解释的差异小于PC1,而PC3解释的差异小于PC2。

  确定要保留多少台PC。 在我们的示例中,我们决定省略PC3。

  剩余PC数将决定最终图表中的尺寸数。

  结论

  而已。 我试图使它尽可能平易近人。

  通过数学工作可以帮助您更深入地了解其工作原理,但是我认为这不是在Sklearn中使用PCA的先决条件。

  您现在已经有了非常基本的了解。

  (本文翻译自Chris的文章《PCA (Principal Component Analysis) Explained Visually In 5 Minutes》

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python鸢尾花数据集可视化PCA主成分分析是一种常用的数据分析方法,可以帮助我们理解数据集的结构和分类情况。 首先,我们需要导入相关的Python库,如numpy、pandas和matplotlib。然后,我们可以使用pandas库中的read_csv方法读取鸢尾花数据集的CSV文件,并将数据存储为一个DataFrame对象。 接下来,我们可以使用sklearn库中的PCA类来进行主成分分析。首先,我们需要对数据进行标准化处理,即将数据的均值调整为0、方差调整为1。然后,我们可以创建一个PCA对象,并将数据传递给它的fit_transform方法进行主成分分析主成分分析会将数据转换为新的坐标系,其中每个维度代表数据在原坐标系中的一个特征。我们可以通过PCA对象的explained_variance_ratio_属性来获取每个主成分对应的方差比例,从而了解每个主成分的重要性。 为了可视化主成分分析的结果,我们可以创建一个二维散点,其中x轴和y轴分别代表前两个主成分。我们可以使用Matplotlib中的scatter函数绘制不同类别的数据点,并使用不同颜色或形状进行区分。 此外,我们还可以通过绘制累积方差比例来了解所选择的主成分数量是否足够解释原始数据的方差。该可通过累积explained_variance_ratio_属性的值进行绘制。 总的来说,Python鸢尾花数据集可视化PCA主成分分析是一种有效的数据分析方法,可以帮助我们更好地理解数据集的结构和分类情况。它不仅可以帮助我们发现数据中隐藏的规律和趋势,还可以帮助我们对数据进行更好的预测和决策。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值