统计学---掌握数据的整体状态

最新推荐文章于 2023-09-25 18:13:55 发布

saltriver

最新推荐文章于 2023-09-25 18:13:55 发布

阅读量2k

点赞数 5

分类专栏：数学与算法文章标签：统计学数据

本文链接：https://blog.csdn.net/saltriver/article/details/77689328

版权

数学与算法专栏收录该内容

22 篇文章

订阅专栏

本文介绍了如何通过对数值型数据和分类数据的评估来了解整体状态。数值型数据的评估包括总数、平均数、中位数及标准差等概念，分类数据则通过计算各分类占比来掌握。文中还详细解释了不同评估方法的应用场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

我们日常工作生活中会获得各种数据，我们希望了解这些数据所代表的整体状态，从而可以用来描述、比较和评价。

例如一个公司每个人的收入，一个公司保龄球对抗赛的分组成绩，这些获得的数据都是数值型数据。我们假设公司有3个部门，每个部门有6个人，其保龄球对抗赛的得分情况如下：

A部门	B部门	C部门
86	84	229
73	71	77
124	103	59
111	85	95
90	90	70
38	89	88

怎么对这3个部门的成绩数据进行比较和评价呢?首先想到的第一个评估值当然是各部门的总得分情况。例如A部门总得分是522分，B部门总得分是522分，c部门得分是618分。C部门得分最高，A、B部门得分相同。c部门最强。

这是其中一种数据评估项：即总数(sum)。但是，如果A、B、C三个部门的人数不相等呢，那么显然人数多的部门有更多的优势。就像中国和挪威，中国人的数量比挪威人的数量多的多，那么中国的GDP就比挪威的GDP有更多的优势，你可以把总数理解为GDP。

那么，第2种数据评估项就来了：平均数，也称为“均值(mean)”。即总数量除以总个数。A、B、C这3个部门各是6个人，那么平均数就是A部门87分，B部87分，C部103分。C部门仍然最强。你可以理解“平均数”为“人均GDP”。

但我们注意观察一下，C部分平均得分是103分，但是c部门6个人，超过103分的只有1个人，低于103分的有5人，也即超过80%的人没有过平均数，把103分当作C部门的平均得分好像很不合理啊。

我们经常在各种新闻报道中，有某某行业平均薪酬是多少万元，某地区人均薪酬是多少，例如软件行业平均薪酬25万元，金融行业平均薪酬50万元，很多人的感觉是自己拖后腿了。这种感觉没有错，可能8o%的人实际上都没有过平均数，因为平均数被行业中某些高收入的人拉高了。

在这种情况下，使用“中位数(median)”来评估数据可能更合适，中位数就是将数据依大小顺序排列，取最中间的值，例如A部门的得分是86、73、124、111、90、38，按照顺序排列是38、73、86、90、111、124，最中间的值是86、90。

中位数的计算方法是：如果数据个数是奇数，则最中间的值就是中位数；如果数据个数是偶数，则最中间的2个值的平均数是中位数。那么A部门的中位数是(86+90)/2=88，B部门是(85+89)/2=87，C部门是(77+88)/2=82.5。可以看出，C部门的中位数反而是最低的。

我们再来看一下，A部门和B部门的总得分相同，都为522分，平均得分也相同，都为87分，中位数也差不多。但我们把A部门和B部门的各个得分画成下图，能够看出来这2队的数据状况大不相同吧。
这里写图片描述
A部门各人的得分散落在各处，而B部门各人的得分都相当接近。表现数据这种“离散程度”的数据评估项，就是“标准差(Standard Deviation)”，标准差的最小值为0、而数据的“离散程度”越大，标准差就越大。标准差的计算如下：
这里写图片描述
通过上式计算得到A部门的得分标准差是30.17，B部7的得分标准差是10.37。也就是说总得分、平均数都相同，中位数很接近的A部门和B部门，离散程度却相差3倍。显然B部门的得分更加均衡。你可以理解为在GDP和人均GDP相同的情况下，标准差低的收入更加均衡，贫富差距比较小。