你“被平均”过吗?揭露“平均数”的诡计

文章揭示了平均数在不同情境下可能产生的误导,通过实例说明算术平均数、中位数和众数的区别。在描述收入、身高等分布不均的数据时,中位数可能比均值更能反映实际情况。平均数并不总是代表“大多数”或“正常”,混淆平均数与“正常”可能导致误解。正确理解和使用平均数及其他统计指标对于避免误导至关重要。
摘要由CSDN通过智能技术生成

9e6820ad588b9c88606df0bf8a3130ee.png

平均数(如均值、众数、中位数)也许是人们最喜欢拿来作为证据的数:当你想证明中国人营养改善了,你可以比较中国人的平均身高的变化;当你想说明你调研的社区确实很贫困,你会摆出当地居民的人均年收入;当你在校园里推销一个英文培训课程,你会告诉前来咨询的学生,这个培训班的学员的GRE平均分数能有多高……类似的例子不计其数。平均数似乎是一个人人会用、人人能懂的指标。但在很多情况下,平均数也是最容易产生误导的指标,单单一个平均数,很多时候根本说明不了任何问题。本期趣味统计学将揭开“平均数”的诡计。


偷梁换柱的“平均数”

假设你正在我所住的小区寻找想买的房子,而我是一个狡猾的房产中介。为了抓住这笔生意,我巧舌如簧,费劲心思让你相信附近的居民月收入大约有25000元人民币,这也许增强了你居住于此的兴趣——也增加了你未来丈母娘对你刮目相看的几率。不管怎样,买卖最终成交。你在与亲戚朋友聊天时,你总会看似不经意地告诉他们你住在哪儿。

一年左右我们又见面了,作为业主委员会委员,我正在四处奔走,为阻止物业费上涨或降低公共交通费用而呼吁。我的理由是:我们支付不起各种上涨的费用,毕竟,附近居民的平均月收入只有4000元人民币。当听到那可怜的4000元时,你也禁不住大为吃惊:到底是我现在撒谎了呢?还是我一年前撒了谎?

其实两次你都不能怪罪于我,因为这两个数字都是合法的平均数,都有合法的计算方法。两个数字代表相同的数据、相同的居民、相同的收入。所有的都相同,但只有一个小诡计——我每次使用了不同的平均数。当希望数据较大时,我使用的是算术平均数,即25000元。这个数字通过将所有家庭的人均收入加起来再除以所有家庭总数便能得到。

小一些的是中位数,它能告诉你一半家庭的收人超过4000元,而另一半家庭的收入低于4000元。我还可以利用众数,它是在所有家庭收入序列中出现次数最多的那个收入。例如,如果这个居民区中,月收入7000元的家庭数远大于其他收人的家庭数,则众数就是7000元(哪怕月收入刚好等于7000元的家庭只占这个居民区家庭的10%)。

因此,当被告知某个数是平均数时,除非你能很明确地了解它的具体种类——均值、中位数还是众数,否则你对它知之甚少。

到底什么时候用均值,什么时候用中位数?这取决于你要描述的特征的取值分布。当看到某些人平均身高为170 CM时,你便能对这些人的外形有大概的了解,而根本不需过问这个平均数到底是均值、中位数还是众数,因为它们没有过多的区别。在人类特征的一些数据上,不同的平均数将大体相等,因为这些数据的分布十分接近正态分布。如果用曲线来描绘正态分布,你将获得一条类似于一口钟的曲线,它的均值、中位数以及众数都落在同一点上。虽然在描述人体身高时,一种平均数与其他任何平均数一样具有相同的作用,但在描述他们的经济收入时,却不是那么回事了。

如果将一个城市所有家庭的年收入列出来,你将发现这些数据会从极小的值变动到几百万元,甚至还能发现一些极大的值。多于95%的收入低于16万元,聚集在分布的左侧。在这种情况下,分布将不再对称,也不会像一口钟,而是有偏的.它的形状类似于孩子玩的滑梯,梯子急剧升到顶点,而滑道一侧则是缓慢向下倾斜,均值与中位数离得很远。在这种情况下,中位数也许比均值更能反映“中间”状态。

均值代表“大多数”吗?

在通常情况下,平均数——无论是均值或中位数,都由于过于简单而导致无用。例如,在上世纪50年代的美国,许多房产都是为了满足统计上的平均家庭人数(3.6人,3或4人)设计的,即建造两个卧室的房屋,而这种所谓的“平均”家庭,实际上却只代表了一小部分家庭。“我们为平均家庭建造一般规格的房屋”,房地产商这么说的同时,却忽略了具有更多人口或更少人口的大部分家庭。

这样的后果是,一些地区大量重复建设两个卧室的房子却低估了其他规模的需求,这是由不完全信息的统计资料造成的巨大浪费。对此,美国公共健康联合会就指出“当越过算术平均数去注意它所不能代表的实际家庭人口范围时,可以看到3人或4人的家庭仅占总体的45%,而35%的家庭是1人或2人,剩下的20%则多于4人。”因此,有时候,给出取值的范围和分布比抛出一个平均数更有用。

偏离均值就是“不正常”?

在一些情况下,错误地使用“平均数”将会使其变成强求一致的统计量。假设一对父母在某个育儿节目或杂志上看到或听到孩子将在某月份学会坐直的信息,他们会立刻联想到自己的孩子,而如果恰恰他们的孩子到了这个月份还不能坐直,他们一定会得出自己的孩子智力低下、不太正常之类的结论。

从统计的角度看,不管这个“平均坐直月份”是多少,都会有一半的孩子(假定总体符合正态分布)在那时坐不直,进而就一定会有一半的家长将为此苦恼。不过,从另一个角度看,这些苦恼将和另一半聪明孩子的家长的得意相互平衡。如果这一半的家长仅仅是苦恼,也不会造成很严重的后果,但如果这些不开心的家长做出种种努力使自己的孩子与标准一致的话,那么就很可能会产生无法挽回的危害。

a6eab8ff9c0e965eb7fee3904e2f9955.png

“平均数”反映的是“统计期望”,是否“正常”则是道德判断,混淆二者会让很多父母误以为晚一天或晚一个月学会走路的孩子是低能儿。而如果研究者在告诉读者平均数之外,还给出反映全体范围的指标,如指出90%或95%的幼儿在多少个月前可以坐直,如此,许多误会就可以被消除了。而当发现自己的孩子属于正常范畴时,父母自然不会因为这些微小和无意义的差异而有不必要的担心。

毕竟,几乎没有人是正常的,就如同抛100次硬币,几乎很难出现50个正面和50个反面的情况。这些没有透露范围指标的数据的欺骗性在于人们经常忽略“平均数”所反映的事物基本上是不存在或很少存在的,而这也是那些只使用这一项统计数据的人获取成功的奥秘。

在我国,每次政府部门发布平均收入、平均住房面积,哪怕是中国人平均身高都会在网上引发热议和质疑,很多人表示自己“被平均”、“被代表”、“拖了后腿”,这也使得“平均数”越来越失信于民,但有统计常识的人都会知道平均数只是反映总体特征的一项指标,反映了总体特征的一个方面——集中趋势,而总体分布中还有许多不能为平均数来反映的侧面,比如离散程度。不仅如此,平均数也没有任何道德的含义,它既不一定代表“大多数”,也不意味着与其一致就是“最正常”,也许,要在我们学习“正态(正常)分布”(Normal distribution)之后,才会对如何判断“正常”和“非正常”有进一步地了解。

本文部分内容及案例改写自达菜尔·哈夫所著《统计陷阱》

 
 

END -

 
 
对比Excel系列图书累积销量达15w册,让你轻松掌握数据分析技能,可以点击下方链接进行了解选购:
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值