绘制直方图时自适应区间数量


确定区间的总范围

区间是[0,max]还是[min,max]?假如数据的min和max比较接近,且之间的数据量比较多,那么我们显然是更想关注这个区间内数据分布,那么[0,min]之间的数据不仅没有用处,而且会浪费图中的空间。

所以区间分布取[min,max]。


如何自适应区间的数量

之前绘制直方图,是调用现成的函数,但里面有项参数是输入区间数量。我们通常都是大概预测一下,之后输入一个初始值,待图出来后,看效果如何,在调整区间数量,重新绘图。

上述是我们通常绘制直方图的通用流程,那么如何将其以算法实现,以用到大量数据中?

实际上,我们重点解决初始区间数的选定效果如何的评判标准两个问题即可。效果指的是取的区间是否尽可能地将数据分布展现出来,不会出现大量数据集中在某一区间而其它区间没有数据的情况,即我们可以简单地定义指标数据区间均衡程度来作为效果评判指标。

那么初始区间数如何选定?首先根据上文,数据分布均衡程度肯定是一个指标,因为数据分布越不均衡,我们希望的区间也更多,数据分布越均衡(考虑平均分布的情况),此时区间取几个已经无所谓了,因为效果都一样。

那么还要考虑的因素有哪些?应该还有数据个数,比如随着数据量的增大,我们取的区间

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值