python直方图与x轴对应不起来_不使用直方图的6个原因以及应该使用哪个图替代...

直方图虽然直观,但可能因分箱数量、最大最小值依赖、无法检测相关值等问题导致误导。文章指出,累积分布图(CDP)能解决这些问题,提供稳定且有意义的视图。CDP不受分箱影响,能识别异常值、相关值,且易于比较不同分布。在Excel、R和Python中制作CDP比直方图更方便。
摘要由CSDN通过智能技术生成

直方图并非没有偏见。实际上,它们是武断的,可能会导致对数据的错误结论。

无论你是在与高管开会,还是在与数据狂人开会,有一件事是可以肯定的:总会看到一个直方图。

直方图非常直观:任何人一眼就能理解它们。此外,它们是对现实的不偏不倚的反映,对吧?其实不是这样。

直方图可能会误导人,并得出错误的结论——即使是简单的数据!

在这篇文章中,我们将通过一些例子来解释为什么直方图不是可视化数据的最佳选择:

它的显示太依赖装箱的数量。

它太依赖于变量的最大值和最小值。

它不能检测相关值。

它不能区分连续和离散变量。

无法观察和比较数据的分布

不加载所有数据,就很难做出判断。

在本文的最后,我将推荐另一种解决方案,称为CDP,它可以克服这些缺陷。

直方图怎么了?

1、显示太依赖装箱的数量。

要绘制直方图,必须首先确定间隔数(也称为箱)。有很多不同的经验法则可以做到这一点(有关概述,请参阅此页面)。但是这个选择有多关键?让我们获取一些真实数据,看看直方图如何根据分箱数变化。

变量是303人在某些体育活动中达到的最大心率(每分钟心跳数)(数据来自UCI心脏病数据集)。

9d84c4883de2ce9cc3bd2ec5ee5cb4b1.png

查看左上图(在Python和R中默认情况下得到),我们会看到一个具有单个峰(模式)的良好分布的印象。但是,如果我们查看其他直方图,则会得到完全不同的图片。直方图可以得出矛盾的结论。

2、它太依赖于变量的最大值和最小值。

即使设置了箱数,间隔也取决于变量的最小和最大位置。只需稍微改变其中之一,并且所有间隔都改变即可。换句话说,直方图不是鲁棒的。

例如,让我们尝试更改变量的最大值,同时将箱数保持不变。

c8a65f8aaa2f2d2ca5ec035d915e2dba.png

如果单个值不同,则整个图将不同。这是不受欢迎的属性&#

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值