假如你上班正在偷偷看八卦新闻,看到范冰冰和李晨又在秀恩爱,又在虐狗,这时候突然老板出现在你面前。你手法熟练的用快捷键(Alt+Tab)将屏幕切换到工作界面。
正当你心里暗爽,又躲过一劫时。老板丢给你一堆公司的业务数据,让你看看能从中找到什么关键信息。
那么,你该如何办呢?
在统计概率里有个"描述统计学"的东东可以帮助到你。那什么是描述统计学呢?
对大量信息进行归纳是处理数据时最基本的任务。中国约有14亿人,一张记录每位中国人的姓名和收入的电子表格包含了我们衡量这个国家经济健康状况所需的所有信息,通常我们也将多个数据集合在一起的东东简称数据集。
但这张信息过量的表格其实相当于什么都没有告诉我们。这就是让人觉得讽刺的地方:经常是数据越多,事实越模糊。
因此,我们需要简化,将一系列复杂的数据减少为几个能够起到描述作用的数字,正如奥运会体操比赛中,我们将一套多难度组合的复杂动作浓缩为一个得分:9.8分。
描述统计学就是将一系列复杂的数据(数据集)减少为几个能够起到描述作用的数字,用这些有代表性的数字来代表所有的数据。这样在面对一大堆数据时,你可在不知道所有数据的情况下就能知道数据的整体情况。
这就好比,我们通常一说起美女,能想到的是这样几个指标:长腿,大眼睛,脸蛋好看。虽然全国有那么多美女,你也没有见过全部的美女,但是你却能通过这样几个代表美女的指标就可以大概知道什么是美女。
同样的,描述统计学的关键点在于找到几个关键的数字来描述数据集的整体情况。
那么,问题就来了,能担当起这样重要责任的数字有哪些呢?
描述数据集常用的4个指标分别是:
1)平均值 2)四分位数 3)标准差 4)标准分。
我可以用一张图告诉你,每个指标都是干啥用的。
上面这个图我简单介绍下。
第1个是平均值,但是平均值的缺点是对异常值不敏感,所以描述数据非常不准确。很多人会陷入平均值的陷阱,以及经常感叹自己的工资为何被平均了。
以后新闻报告中再见到平均值,你就改小心了,别被忽悠了。我们要用知识打败这个信息爆炸的世界。
第2个是四分位数,经常用箱线图来表示。四分位数有两个典型的应用:
1)常常用来比较不同类别数据的整体情况。之前社群会员也用箱线图做过不同年限数据分析人员的薪资水平,一目了然。
2)四分位数的第2个应用是可以识别出异常值。有一个方法叫Tukey's test用的就是四分位数。
第3个是标准差,用于衡量数据的波动大小。一般NBA球员稳定性,和股票风险就是用标准差来衡量的。
第4个是标准分,用于表示某数值的相对排名,用于不同数据集间的比较。深圳中考排名就用过标准分来计算孩子的中考成绩,方便家长选学校。
猴子总结:
今天我们知道了什么是描述统计学。当你面对一堆数据的时候,可以先计算出这4个描述统计学的指标,就能从整体上看出数据集的情况。
后面我会详细介绍这4个指标是怎么发明出来的,用于解决什么问题,以及具体应用在生活中的哪些地方。