讲个笑话,巴依老爷发现家里经常失窃,他把阿凡提叫来,叫给他找两个奴隶来看护院子,要求条件是平均年龄40岁。阿凡提找来了,是一个78岁的老头抱着一个两岁的婴儿,巴依财主气疯了。阿凡提说,就是按你的要求来的啊,平均年龄40岁。
这个故事说明了,平均值的局限性:平均值只表示数据在其周围分布。但却不能弄清楚数据分布的状态。但我们日常很多时候却关心数据的分散和波动。
比如你正在为要不要乘坐某路线的公交车而烦恼。公交车A的时刻表是第概率迟到2分钟和提前2分种;公交B的时刻表是第概率迟到10分钟和提前10分钟。
如果我们只看平均值,它们的平均值是一样正点到达的,是无法区分优劣的,是无法决定是否乘坐的。
好,我们以公交车到达时刻为例子来理解我们要引出的例子方差。
表1是正点到达时间为6点30分的公交车5天到达时刻数据
表1
单位:分钟