做数据分析,大部分时间都在干什么?
60%的时间都在整理数据?!
很多人刚看到这个图,可能觉得很夸张,其实这一点都不夸张!甚至我们有时候清洗数据的时间占比还要更高!
数据清洗,具体都在干什么?
大家肯定能想到一些,例如缺失值、重复值、异常值…… 这些都很对,但别忘记了,以上仅是纯数据层面的数据清洗,我们实际工作中,业务层面的数据清洗才是更大的考验!
(数据化管理的《数说》线上课程有介绍,有兴趣的朋友可以后台回复 “数说”
看介绍)
本篇文章,给大家介绍一个图表--
箱形图,可以很方便地帮我们去
发现异常值,提高我们清洗数据的效率!
箱形图是什么?
没错了,上面这个就是
箱形图了!中间部分是不是确实像一个箱子?
平时我们要看一组数据的分布集中情况时,可以直接用到统计的数字(如平均数,中位数,众位数等),也可以用图形化的方法
(箱形图就是其中的一种)。在上面的箱形图中,有些名词要解释一下:
首先是对一组数字从小到大进行排序,然后:
第一四分位数:处于第25%位置的数字
中位数(第二四分位数):处于最中间位置的数字,这组数字中一半会比它大,另一半比它小
第三四分位数:处于第75%位置的数字
上边缘:第三四分位数 + 1.5 *(第三四分位数 - 第一四分位数)或正常值的最大值
下边缘:第一四分位数 - 1.5 *(第三四分位数 - 第一四分位数)或正常值的最小值
离群值:在上边缘或下边缘以外的值,就是离群值(异常值)
以上就是箱形图中,可以展示出来的值。
箱形图能做什么?
箱形图,是以图形方式快速查看一个或多个数据集的好方法,可以帮助我们看到数据组中的:
1、
关键数值,例如平均值、中位数和上下四分位数
2、
异常值,如果这组数存在异常值(大于上边缘,或小于下边缘),则会自动在图中显示出来
3、
数据分布,根据中位数线是否位于正中心、靠上/下,去判断分布情况
以下通过2个案例去简介一下箱形图的应用,建议大家也可以结合企业的数据,或者百度更多的案例进行深入研究学习。
应用举例1:分析5大手机品牌的京东零售价格分布情况
从上方的箱形图,我们可以看到最低售价是599元,最高售价是12298元;在橙色的箱子里面,表示50%的手机零售价格是介于1699-4787元之间的。
极端异常值是分别有:9998、10498、10999、12298,即表示这些数极大地偏离大部分的数据,即超过9098元的零售价格可以看成为零售价中的异常价格值,算绝对高端的价格了。这些异常值可以作为我们的重点研究对象,值得我们花时间去了解其异常的原因。
应用举例2:比较不同销售员的业绩情况,以下是根据11月每个店员每天的销售业绩数据做出来的箱形图
上面的箱形图可以看到,每个店员的最小销售额、最大销售额,销售额中位数这些关键数字,同时也方便我们去横向对比不同的店员,如比较中位数店员4的大部分业绩都是要比另外三个人要高的(背后的原因,可能是高价产品销售能力强,或者连带率更高)。从图表上总体来看,店员2的业绩最稳定,店员4的业绩最不稳定。另外可以看到,店员2的数据中,有7643、8113、8227三个离群值,表明是大幅度地偏离了大部分的数据,需要我们去寻找其中的原因,以便进一步分析。
其实还有更多的箱线图应用场景,例如在质量管理中,人事评测,探索性数据分析中都可以用到,主要是用它来识别异常数据,直观比较多组数据之间的分布情况。
关于箱形图的技术方面,在Excel2016以上版本是自带图表,直接选中数据源插入就行;如果是Excel2013及以下的版本,可以用股价图/堆积柱形图等方法去实现(具体请自行百度);如果是PBI,可以自行从市场导入箱形图,然后使用。
建议大家可以用自己的数据来探索
(员工工资数据、商品零售价数据、销售业绩数据……)
,探索在更多的场景去使用,有更多的意见也欢迎大家评论分享
。
—— 年度工作报告技能合集 ——
年终总结报告,让你脱颖而出的图表技能!
领导最希望收到这样的年度工作报告
年度工作报告必备图表之标签云图制作
年度工作报告必备图表之热力图制作