快速认知数据的详细步骤(三)

感谢关注天善智能,走好数据之路↑↑↑

欢迎关注天善智能,我们是专注于商业智能BI,大数据,数据分析领域的垂直社区,学习,问答、求职一站式搞定!

本文作者:天善智能社区专家胡晨川

天善智能社区地址:https://www.hellobi.com/

初步认知数据分布

拿到一个数据集,你先检查了数据源的质量,然后通过数据清洗提升了数据集的质量,再通过平均数的计算了解了数据集大小的一般水平,接着又通过方差和标准差了解了波动变化。经过这一系列的操作,你对数据有了一定的认知。但这就够了吗?答案是否定的。在数据的快速认知中,我们还需要对数据分布进行探索。这部分工作比较难理解,但若能掌握,往往能帮助你快速做出决策。

要认知一个数据序列的分布如何,首先我们要计算最大值、最小值、中位数、算术平均数、75%分位数和25%分位数。如下图,我们沿用了上一小节的例子,计算了川术公司7月份和8月份每日业绩数据的相关指标。从表格中,我们可以看到,8月份的最大值明显高于7月份,而最小值明显低于7月份,说明8月份的数据相比7月份更为“分散”。我们将最大值减去最小值所算得的数字称为“全距”。全距部分反映了数据点的分散情况。为什么说是部分反映呢?若一个数据序列的最大值特别大,最小值特别小,而其他数值却非常接近,那么全距就不能真实反映这个数据序列的离散情况了。那么这个时候需要怎么衡量?我们需要百分位数。

所谓的百分位数,即将数据升序排列后,具体数据值的序号除以数据值的总数,所得出的百分比,即该数据值所对应的百分位数。比如,有一个数据序列(1,2,2,3,4,4,5,6,8,10),按升序排列后,数字6排在这个序列的第8位,那么这个数据序列的80%分位数就是6。我们最为常用的是25%分位数和75%分位数,称为四分卫数。而两个四分位数的差(四分卫差),与全距一起使用,就能比较准确的判断数据序列的离散情况。中位数即50%分位数。你可以用PERCENTILE()函数试着计算一下下图中的两个四分卫差,看看结论如何?

数据序列的离散度与波动性是存在关系的,往往序

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
牙科就诊管理系统利用当下成熟完善的SSM框架,使用跨平台的可开发大型商业网站的Java语言,以及最受欢迎的RDBMS应用软件之一的Mysql数据库进行程序开发。实现了用户在线查看数据。管理员管理病例管理、字典管理、公告管理、药单管理、药品管理、药品收藏管理、药品评价管理、药品订单管理、牙医管理、牙医收藏管理、牙医评价管理、牙医挂号管理、用户管理、管理员管理等功能。牙科就诊管理系统的开发根据操作人员需要设计的界面简洁美观,在功能模块布局上跟同类型网站保持一致,程序在实现基本要求功能时,也为数据信息面临的安全问题提供了一些实用的解决方案。可以说该程序在帮助管理者高效率地处理工作事务的同时,也实现了数据信息的整体化,规范化与自动化。 管理员在后台主要管理病例管理、字典管理、公告管理、药单管理、药品管理、药品收藏管理、药品评价管理、药品订单管理、牙医管理、牙医收藏管理、牙医评价管理、牙医挂号管理、用户管理、管理员管理等。 牙医列表页面,此页面提供给管理员的功能有:查看牙医、新增牙医、修改牙医、删除牙医等。公告信息管理页面提供的功能操作有:新增公告,修改公告,删除公告操作。公告类型管理页面显示所有公告类型,在此页面既可以让管理员添加新的公告信息类型,也能对已有的公告类型信息执行编辑更新,失效的公告类型信息也能让管理员快速删除。药品管理页面,此页面提供给管理员的功能有:新增药品,修改药品,删除药品。药品类型管理页面,此页面提供给管理员的功能有:新增药品类型,修改药品类型,删除药品类型。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值