我们日常工作生活中会获得各种数据,我们希望了解这些数据所代表的整体状态,从而可以用来描述、比较和评价。
例如一个公司每个人的收入,一个公司保龄球对抗赛的分组成绩,这些获得的数据都是数值型数据。我们假设公司有3个部门,每个部门有6个人,其保龄球对抗赛的得分情况如下:
A部门 | B部门 | C部门 |
---|---|---|
86 | 84 | 229 |
73 | 71 | 77 |
124 | 103 | 59 |
111 | 85 | 95 |
90 | 90 | 70 |
38 | 89 | 88 |
怎么对这3个部门的成绩数据进行比较和评价呢?首先想到的第一个评估值当然是各部门的总得分情况。例如A部门总得分是522分,B部门总得分是522分,c部门得分是618分。C部门得分最高,A、B部门得分相同。c部门最强。
这是其中一种数据评估项:即总数(sum)。但是,如果A、B、C三个部门的人数不相等呢,那么显然人数多的部门有更多的优势。就像中国和挪威,中国人的数量比挪威人的数量多的多,那么中国的GDP就比挪威的GDP有更多的优势,你可以把总数理解为GDP。
那么,第2种数据评估项就来了:平均数,也称为“均值(mean)”。即总数量除以总个数。A、B、C这3个部门各是6个人,那么平均数就是A部门87分,B部87分,C部103分。C部门仍然最强。你可以理解“平均数”为“人均GDP”。
但我们注意观察一下,C部分平均得分是103分,但是c部门6个人,超过103分的只有1个人,低于103分的有5人,也即超过80%的人没有过平均数,把103分当作C部门的平均得分好像很不合理啊。
我们经常在各种新闻报道中,有某某行业平均薪酬是多少万元,某地区人均薪酬是多少,例如软件行业平均薪酬25万元,金融行业平均薪酬50万元,很多人的感觉是自己拖后腿了。这种感觉没有错,可能8o%的人实际上都没有过平均数,因为平均数被行业中某些高收入的人拉高了。
在这种情况下,使用“中位数(median)”来评估数据可能更合适,中位数就是将数据依大小顺序排列,取最中间的值,例如A部门的得分是86、73、124、111、90、38,按照顺序排列是38、73、86、90、111、124,最中间的值是86、90。
中位数的计算方法是:如果数据个数是奇数,则最中间的值就是中位数;如果数据个数是偶数,则最中间的2个值的平均数是中位数。那么A部门的中位数是(86+90)/2=88,B部门是(85+89)/2=87,C部门是(77+88)/2=82.5。可以看出,C部门的中位数反而是最低的。
我们再来看一下,A部门和B部门的总得分相同,都为522分,平均得分也相同,都为87分,中位数也差不多。但我们把A部门和B部门的各个得分画成下图,能够看出来这2队的数据状况大不相同吧。
A部门各人的得分散落在各处,而B部门各人的得分都相当接近。表现数据这种“离散程度”的数据评估项,就是“标准差(Standard Deviation)”,标准差的最小值为0、而数据的“离散程度”越大,标准差就越大。标准差的计算如下:
通过上式计算得到A部门的得分标准差是30.17,B部7的得分标准差是10.37。也就是说总得分、平均数都相同,中位数很接近的A部门和B部门,离散程度却相差3倍。显然B部门的得分更加均衡。你可以理解为在GDP和人均GDP相同的情况下,标准差低的收入更加均衡,贫富差距比较小。
上面都是对数值数据的整体掌握,那么对于分类数据呢?例如移动通信公司收集到一份数据,对移动通信服务的评价情况,“非常满意、满意、一般、无所谓”。
序号 | 满意程度 |
---|---|
1 | 非常满意 |
2 | 满意 |
3 | 满意 |
4 | 一般 |
5 | 一般 |
6 | 无所谓 |
7 | 一般 |
… | ….. |
对于分类数据,一般通过计算各个分类占总数的比例来掌握数据的整体状态,例如上面100个调查数据中,非常满意的有18人,满意的有70人,股的有10人,无所谓的有2人,那么这4个分类分别占比是18%,70%,10%、 2%。