【概率与统计】揭开样本方差n-1分母之谜

7cab42eb559b81f3eea80c975458f8e1.png

来源:人工智能大讲堂
本文约7100字,建议阅读10分钟
只要人人都追求无偏差,世界会变成美好的人间。

作者:张英锋

链接:https://www.zhihu.com/question/20099757/answer/658048814

来源:知乎

著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

f2eca422cdf2c629969c482739342d28.png

为什么样本方差(sample variance)的分母是 n-1?或者,怎么理解统计学中「自由度」这个概念?

这是一个非常好的问题,探索这个问题的答案,不仅能更好地了解自己和这个世界,还能避免被征收“偏差税”Bias Tax

先说结论,样本标准差的分母写成n-1,是为了对自由度进行校正,这叫贝塞尔校正(Bessel's Correction)[1]。注意这个贝塞尔不是贝塞尔曲线(Bézier curve)那个贝塞尔。

为了让中学水平的读者就能理解,我尽量不用公式,用浅显的语言和生活中的案例,来叙述这个问题的来龙去脉。这算是对其他答案的补充,也许看完后,再看其他高手的回答就没那么难了。

在统计领域,你经常会看到,为了减少干扰数据对结论的影响,数学家设计了大量的技术手段来对数据进行校正。

先看一篇我改编的故事《比尔盖茨冲进酒吧》:

一天晚上,小镇酒吧里坐着9个人,大家都是小镇上的工薪族,年薪的平均值在5万美元左右。

20723d3a3e3999d9d40f76ec4347d5dc.jpeg

从上面的数据和图表,你可以看出50000美元这个平均值,比较准确地体现了9个人的收入水平。

正在此时,比尔盖茨急匆匆地走进酒吧,冲向厕所……

假如比尔盖茨的年薪是10亿美元,在他上厕所的时间里,另外9个人啥也没做,加上比尔盖茨,10个人的平均年薪平均值一下子从5万爆涨到1亿美元。

39e19c9c872533a8a697e41fdc1933b3.jpeg

如图,相比之下,和比尔盖茨相比,9人的年薪太渣,完全看不出高度,像二向箔一样薄。

而当比尔盖茨离开后,他们还是啥也没做,平均年薪却暴跌了近1亿美元。

9人抱头哭死在厕所……

剧终^_^

在这个例子里,比尔盖茨就是一个干扰数据,因为他的存在,让平均值的计算并不能体现酒吧里工薪族的真实平均水平,9人的平均年薪无缘无故地涨到了1亿。当然这个数也无法体现比尔盖茨的真实收入水平,因为他缩水到了1亿。

那统计学家应该怎么办呢?

在统计上,把比尔盖茨这种干扰数据称为异常值(Outlier)。

应对这种异常值,最简单的方法就是排除掉它们。在计算平均值时把比尔盖茨排除掉,就无法干扰平均值了。(当然实际应用比较复杂,排除异常值需要谨慎,不能随意的排除)

排除法这种技术手段也经常应用在比赛打分上。

我们知道裁判打分的主观性非常大,为了减少单个教练的影响,比赛通常会安排多个裁判一起给选手打分,然后再取一个平均值。

但实际上在求平均值时,还会再去掉最高分和最低分,然后对剩下的分数计算平均值。

这种排除最高/低分的手段也是为了消除干扰,因为最高分和最低分对平均值的影响比较大,会大幅偏离真实的水平。

例如,下面是10个裁判的打分:

3442315648ec5a092c3e4491b3fe4725.jpeg

上图中最高分把选手的平均值拉高了0.60分,你可能会说,这点分数不算啥,应该影响不大。

但在实际的比赛中,选手的差距通常非常的小,0.1分都会对选手的排名产生显著的影响。

为了尽可能消除其干扰,得到一个相对客观的平均值,通常在计算平均值时,会排除掉最低分和最高分,这样算出来的平均值叫裁剪平均值(Truncated mean)。

比尔盖茨和去掉最高/低分的这两个例子,都是为了说明统计领域的校正技术,用排除法来消除掉干扰数据的影响。

现在你也可能意识到了,在样本方差的计算上,分母使用(n-1),而不是n,也是一种排除法来消除干扰的技术手段。

为什么要减去1,这个1代表的是哪个数?

这个减去的1,不特指任何一个数,1代表那个失去“独立客观”的维度(自由度)。

看不明白?

正常,听我慢慢解释。

在我们在对全体进行采样时,有一个至关重要的前提条件,就是一定要随机采样,这其中的关键词是随机。

之所以要随机,这是为了避免出现样本偏差。因为如果样本错了,后面的计算步骤即使全部都正确,最终结果也是错的。

例如,要想回答“中国人是不是喜欢吃狗肉?”的问题。

b09fe1f3ca86255776c3e555bd87ae0c.jpeg

请问,以下两个采样,哪一个能得到客观的结论?

  • 只去玉林狗肉节上采样。

  • 对中国人进行时间和地点都随机的采样。

两种采样方法,会得出截然相反的结论:‍

  • 前一种采样很不自由,被限制在一个极其有限的时空里。

  • 后一种采样有充分的自由,跳出限制,可以没有干扰的随机采样。

如果只在玉林采样,这个样本就是偏差样本(Biased Sample),是不具代表性的样本(Unrepresentative Sample)。

如果根据这个偏差样本,得出了“中国人居然吃狗肉,太野蛮了!”的结论。无论在逻辑上如何完美,最终结论也是荒谬的。

这就是所谓的“垃圾进,垃圾出”(Garbage in , garbage out)[2]

你在玉林采样越多,你的偏见就会越深,只会进一步的固化你的偏见

但自由的随机采样,你采样越多,你的偏见就会越来越少,看到更真实、更多样化的中国人。

在这里需要暂停一下:请大家反思一下,自己是不是也曾犯过同样的错误,取错了样本,出现了偏差或偏见(Bias)?

反正,我经常会犯这样的错误,轻易就相信传言[3],或轻易给别人扣上帽子[4],这都是偏见。

(罪过,罪过,宽恕我吧,我知道自己错了!)

我们普通人经常会因为样本偏差,被收取“偏差税”(Bias Tax)

例如彩票,就是利用了人们的这一弱点。

彩民们只注意到了那些极少数获得大奖的人,看不到绝大数人赔钱。

越是盯着那些获奖的人看,彩民们的偏见越深,越是坚信自己会中奖。

他们因为在选取样本时出现偏差,而被别人收税。

好吧,我承认,偏差税这个词是我根据智商税这个词编造出来的(^_-)。

很多人喜欢用智商税这个词来嘲笑犯错的人智商低,但智商税这个词是有偏差的。

因为不能根据一个事件就推算出一个人整体的智商,这是不具代表性的有偏样本,这是偏见。

例如很多彩民的智商很高,他们使用各种复杂的公式,做了大量复杂的计算,他们的智商一点都不低,他们的问题是出在样本偏差上。

而偏差税这个词和智商税不一样,不论我们的智商高低,人人都会有偏见,事事都会出偏差,这个税每个人都在交。

例如,股票市场上的散户,迷信中医和保健品的大爷大妈,轻信谣言的吃瓜群众,……,几乎无人可以幸免,都在为样本偏差付出代价。

推荐一个TED演讲《为什么应该热衷于统计学》。

看完就知道人们对这个世界的偏差有多大了。

所以人们不是智商出了问题,是在选取样本时出现了偏差,所以偏差税是一个更客观(无偏)的词。

其实,不仅是普罗大众,就是那些权倾一时的政治家,也曾为样本偏差付出过惨重的代价。

1948年美国大选,大部分报纸都预测杜威会战胜杜鲁门,当选美国总统。社会舆论一致看好杜威,以至于竞选当天,杜威认为杜鲁门很快就会打电话庆祝他当选。

但竞选结果却大跌眼镜,最终是杜鲁门当选。(是不是有些似曾相识?)

6934352ab1d2f3e1a66b5cca7c5783b3.jpeg

杜鲁门获胜后,兴高采烈的举着那些提前预测杜威击败杜鲁门的报纸,笑得好真诚啊!图片来源:https://www.youtube.com/watch?v=h4uUV1klrkM

这次的预测之所以会失败,是因为调查机构通过电话调查的方式做的采样。

1948年,虽然电话已发明多年,但价格并不便宜,有电话的多是相对富裕的家庭,多数人的家里没有普及电话。也就是说,这种采样是有偏差的,只反映了富裕阶层的观点,无法反映当时主流选民的意愿,也就是统计出现了样本偏差。[5]

在当时,除了很多美国人被误导,还有一个人也因为这个样本偏差,把所有筹码错压在了杜威的身上,结果却因此而丢掉了整个江山,此人就是蒋介石。本来杜鲁门在做副总统时就对蒋介石印象很差,在他当选后,更是变本加厉,很快减少了对蒋介石的援助。[6]

常凯申也哭死在厕所!

事实上,有太多的仇恨、歧视、偏见武断的观点,是建立在样本偏差的垃圾数据之上的。

因为“垃圾进,垃圾出”,无论人们如何雄辩,逻辑上如何完美,算法上如何先进,结论也是一堆错误的垃圾。[7]

这是值得你、我、以及所有人都应该警惕的现象。

例如:你想知道当代日本人是怎样的。就不能只对抗日神剧进行采样,不能只对日本右翼进行采样,要获得真实的数据,必须去日本实地对日本人进行随机采样。

只有采样是随机,是不带偏差的(Unbiased),才能保证自己吃进去的不是垃圾信息,这是得出正确结论的第一步。

只要人人都追求无偏差,世界会变成美好的人间。

除了要做到采样是随机的,还要确保样本之间是互相独立的,在统计上用自由度(Degrees of freedom)来描述这种独立性。

我们以常见的招投标为案例,解释一下独立性。

有个学校要盖教学楼,邀请几个建筑公司来投标。学校希望建筑公司的报价尽可能低,而且还要确保质量。所以学校不能只选价格最低的方案,而是要挑选出综合评分最优的方案。

要做到公正客观的评分,必须确保几件事:

首先,学校不能让内部员工来评分,因为内部员工和项目有直接的利益关系,员工都希望自己在项目中获得更多利益,做不到评分上客观独立。

所以学校只能从外部请专家来评标,因为外人独立于学校之外,会减少直接利益所产生的影响。

于是学校计划邀请3个专家来评审,让专家对建筑公司的方案和报价进行综合评分。

其次,学校在挑选专家时,要尽可能确保这些专家之间的观点也必须是互相独立的,不能人云亦云。

假如其中1人是另外2人的上级,那上级说话,下级的观点就倾向于和上级保持一致,在评分时无法做到独立,这样的评分是有偏差的。花了3个专家的钱,却成了1个专家的一言堂。专家独立性从3变成了1,这偏差也太大了。

最后,学校还必须确保,任何一个专家都没有被建筑公司收买,是独立于建筑公司,没有利益输送的。

如果被收买了,专家就会修改评分,让贿赂的商家胜出,这个专家的数据也是不独立客观的。

从上面的这个案例里,你会发现独立的重要性,一旦出现利益关联,独立性就会降低,数据必然会出现偏差。

类似的制度设计非常的广泛,例如陪审团制度,就设计了大量的机制来保证陪审团成员的独立性。

03eb5ee556a3ab675774015bb50120c1.jpeg

电影《十二怒汉》剧照推荐重温一下《十二怒汉》这部经典,看看人们的偏见(Bias)是如何的根深蒂固,消除偏见是如何的困难。

几千年来,人类为了提高独立性,殚精竭虑的设计了各种精巧的制度,这些制度历久弥坚,逐渐成为了现代社会的基石。

在统计实践中人们发现,偏差的产生,很多时候也是因为样本数据之间出现了各种隐含的关联关系,降低了数据之间的独立性。

而解决的策略还很清晰,就是发现其中隐含的关联关系,然后进行校正。

让我们再回到样本方差(Sample Variance)的分母(n-1)上来。

你既然在看这个问题,那就已经知道了方差ce0bae84b602f4aa1865bff53a7b5063.png的计算公式:

1ef32595547d8015319f03c5b85ca1eb.png

需要注意的是这里的方差5ccb45a5138fb040fabdcace2149888e.png其实是全体的方差,μ是全体的平均值,n是全体变量的数量。

例如一家啤酒厂每天生产1万瓶啤酒,我们想知道这些啤酒的质量差异性如何,可以打开这1万瓶啤酒测量,再把所有测量结果代入到上面的公式里求方差,在计算中,没有漏下任何一瓶啤酒的数据。

你也发现了,这样做不仅麻烦了,而且成本极高。

更好方法是对出厂的啤酒进行随机的采样,计算这部分样本的方差e487ecd7066d314e62c20732d5c258b5.png

例如,随机的从产品中找出100瓶,用这100瓶来估算1万瓶啤酒的质量差异,注意,除了这100瓶的数据,其他9900瓶啤酒数据是完全未知的。

样本方差6184fabbc9b0c6dc00cb39f701a44f0f.png它是从全体数据中随机取出一小部分所做的计算,用这个局部的100瓶啤酒的方差去估计全体1万瓶啤酒的方差。

723c4c7e6535efa89b2bc8844a0020b5.png

上面这个样本方差d88406bcd6efc87ce7a2fca29709b7a5.png公式,尽管在形式上和全体方差539bb384e1b6ccdb2b2e561e17db1649.png的公式近似,但是内涵上发生了天翻地覆的变化。

我们来比较一下,全体方差cd1ffdc42eca4e6fc5e78686165ffa2b.png和样本方差1d49aedcba3d6cb6948de04e0608c83e.png

全体方差c04eb7d14ef11e61dcccf5fb89ec1fb5.png是一个客观事实(Fact),是对所有个体数据的全体所作的客观描述(Describe)。

而样本方差f9f406bccacb444289f455148127ba11.png更像一个观点(Opinion),是我们根据少量抽样个体的数据,对全体所作出的估算(Estimation),或者说是预测。

既然样本方差29988f8e54c9faee877bb4d9c3a44da9.png不是一个事实,而是一个观点,是一种估算,为了让这个估算尽可能的接近事实,就必须注意样本不要出现偏差(Bias),否则就会“垃圾进,垃圾出”,得出错误的估算。

例如:

  • 我们不能只对某批产品取样,某个特定时间取样,我们的随机取样必须尽可能地覆盖所有批次,取样要有充分的自由度,足够的随机。

  • 另外还要注意,避免样本里的变量之间存在隐含的关联关系。

我们来看一个例子:

假设随机抽出的样本里只有两个数3b4824485530bedf233e6a81b6de01f9.png

如果这2个数是独立和随机抽取的,你就不能从x1猜出x2,例如我告诉你x1=10,请问x2等于多少?

你根本猜不出来,因为随机抽取让x2和x1之间没有关联。

但是,没想到的是,因为一个数据的存在,让这个随机取样产生了一个隐含的关联关系。

这个数就是计算样本方差c6778756b49599dcd0763fa99a4f1883.png时,需要用到的样本平均值69b0a73d715e816ac8e300b1c6ca7cd4.png,他的引入让随机抽取的独立性和自由度减少了一点点。

因为样本平均值408abbae4c39dba31392b687cf4e84ed.png引入了一些信息,让x1和x2之间不再是相互独立的关系了。


根据平均值公式:

597fac36d4402472849cec38823f8fbb.png

只要知道了x1和df7174eb3dd0b6dbff7390640934ffbe.png,就可以计算出x2的值。

如果x1=10,5f879ab408f50d13b9c003f8ec784df0.png=10,那x2=10

同样,知道了x2和204fcfe39b8752873779bde1462ceba3.png,就可以计算出x1的值。

如果x2=10,4f65d7bed1107636866335960f78bfe9.png=11,那x1=12

也就是说,出问题的并不是x1或者x2,这两个数本来好好的,互相独立的。出问题的是平均值f513f304021c3489930c2360a709819c.png,他引入的新信息,让样本数据之间的独立性减少了,关联性增加了。

或者还可以说,在平均值的介入下,x1和x2的自由度降低了,原来是两个独立的数,现在只有一个独立了,另一个则不再自由,好像有些人云亦云了。

同样的,对于更多的样本量:如果样本是3个数 {x1,x2,x3}

则知道了x1,x2,就能通过996d16a38bdb933941c7609dbe19d610.png,计算出x3,独立性或者说自由度,就从3降到了2。

如果样本是4个数 {x1,x2,x3,x4}

则知道了x1,x2,x3,就能通过7254186a07bf399bc41a1927d4ba7ba1.png,计算出x4,独立性或者说自由度,就从4降到了3。

……

如果样本是n个数544a427f16842a0673e7a36903773418.png则知道了dfa648bb5993ebe69f03072482090505.png,就能通过7a7937ab98580a2a38b599ee9618e2df.png,计算出4c1d64a7d4791ef6403c71472b813ec7.png,独立性或者说自由度,就从n降到了n-1。

平均值3744c1f690860fcf78817d4bd82720a3.png让样本的独立性或自由度减少了1,导致了样本出现了偏差。

这就是为什么样本方差的分母不是n,也不是n-2或n-3,而是n-1的原因。

自由度变小会对样本方差产生什么影响呢?

这意味着,样本方差会变小。

我们知道,方差是通过计算样本和平均值之间的距离,来描述样本的分散程度,数据之间差异越大,方差越大,数据之间越是趋同,方差越小。

还是用专家评分的案例来解释:

如果专家组中,所有人都独立,每个人的评分会出现较大的差异性。

但如果专家组中有个领导,他自己没有任何主见,只是在看完大家的评分之后,取个折中的评分,是个老好人型的领导。

请注意,这个领导没有贡献任何新观点,他的观点不独立,只是重复了别人的观点,但这个重复数据污染了整体数据的独立性,让原本差异性较大数据,因为折中数据的出现,减少了差异,或者说,出现了一些趋同效应,这就产生了偏差。

回到样本方差6a580e33480b011bcdf192bebb6d98cf.png上,因为样本平均值762b175c191bdb624d8d76d35cb7d899.png就是根据样本来计算的,样本平均值bf7a1776415fa20892794f2f76f3236c.png成了那个贡献重复数据的领导,让原来独立的、随机的、没有偏差的样本数据,在计算加工过程中引入了偏差,减少了数据之间的差异性,这种趋同效应让样本方差66b052088f559bcb0d8eab725289accd.png变小。

也就是说,数据取样没问题,是无偏的。但是在后来的方差计算中,均值的引入,让差异性减少,本来无偏的数据出现了偏差。样本方差会一直小于总体方差,这是一个有偏样本方差。

8b412b373ce96d0ffdbb7b4fca9f945f.png

上面是有偏差的样本方差公式,是没有经过校正的。

普鲁士天文学家贝塞尔(Bessel)在对海量的观测数据做计算时,也注意到了这个偏差。

这个偏差的特点是:

  • 在样本量小的时候偏差影响比较明显,样本方差比全体方差偏小。

  • 但是当样本量增大时,偏差逐渐减少,直到影响可以忽略不计。

既然样本方差变小了,那干脆让分母变小,增大样本方差就行了。

贝塞尔给出了修正方法,即把样本方差公式的分母修正为n-1,所以这个修正被后人称为贝塞尔校正。

6b38c357dc47ba4c841aac8a84630b78.png

具体的公式推导过程,可以看Emory University的这篇关于Bessel's Correction推导的文章 [8]

6a2f7f80e188f4406e09f1a0c1dc743e.jpeg

德国天文学家和数学家弗里德里希·威廉·贝塞尔图片出处:https://zh.wikipedia.org/wiki/弗里德里希·威廉·贝塞尔

样本方差c645fc56b0bc3de4172da7b036748588.png公式里的分母n-1,就是这么来的,那个减去的1,就是用来校正7b01529fcb33aa0fd571279faea3c4b7.png所带来的偏差,他不代表某一个样本,而是对自由度的补偿,让缩小的样本方差重新变大一点。

样本方差偏小是不是采样出现问题?因为越接近平均值,就越容易被采样?

从直觉上好像是这样的,比如下面的这个鱼类长度的分布,数据聚集在平均值106(蓝线)附近,如果采样,在平均值周围的确有更大的概率被采样到。

4e882c3e07ba98a64f3515d562e8ed4b.jpeg

但是,直觉是靠不住的。上面的分布只是一种,还有很多的分布,其数据不在平均值附近,而是分散在四处。

例如,下面这个西班牙流感死亡年龄的分布:

14617253c95bd93ab3319c2f3f570650.jpeg

数据并没有聚集在平均值43附近,如果取样,就会发现样本更大的概率是远离平均值,而不是在平均值附近。

所以样本方差出现偏小的原因,并不是因为平均值附近被采样到的概率更大,这只在部分情况下成立,在很多情况下并不成立。

样本方差出现偏差的原因和采样无关,也和平均值附近更容易被采样无关,因为在很多情况下,远离平均值的数据更容易被采样到,这无法解释样本方差为什么会比全体方差小。

更好的解释是,计算过程中引入样本平均值,降低了样本的自由度,减少了数据的差异性。

所以直觉也是靠不住的,事实上,有太多的偏差和偏见(Bias)是由直觉贡献的。

结论

  • 样本标准差的分母写成n-1,是为了对数据进行校正,这叫贝塞尔校正(Bessel's Correction)。

  • 统计经常用各种方法来消除掉干扰数据的影响,例如比尔盖茨和去掉最高/低分的这两个例子。

  • 样本数据之间也经常会出现各种隐含的关联关系,降低了数据之间的独立性或自由度(Degrees of freedom),这会让样本更聚集,让样本偏差变小。

  • 样本方差a19e2b7829134478d3f2fc8aea02b238.png公式里的分母n-1,就是校正样本平均值3d4d05caf7baf263ebd826eb3d16077c.png所减少的自由度,样本数据本身没有偏差,是计算过程中引入的新信息(样本均值),让计算结果出现了偏差。

推荐阅读

[1]https://en.wikipedia.org/wiki/Bessel%27s_correction

[2]https://heap.io/blog/data-stories/garbage-in-garbage-out-how-anomalies-can-wreck-your-data

[3]https://zh.wikipedia.org/wiki/%E8%BB%BC%E4%BA%8B%E8%AD%89%E6%93%9A

[4]https://zh.wikipedia.org/wiki/%E4%BB%A5%E5%81%8F%E6%A6%82%E5%85%A8

[5]https://zh.wikipedia.org/wiki/1948%E5%B9%B4%E7%BE%8E%E5%9B%BD%E6%80%BB%E7%BB%9F%E9%80%89%E4%B8%BE

[6]http://www.todayonhistory.com/lishi/201705/62790.html

[7]https://zh.wikipedia.org/wiki/%E5%81%8F%E5%B7%AE%E6%A8%A3%E6%9C%AC[8]http://math.oxford.emory.edu/s

编辑:黄继彦

728ca4eda152ed000be5ae1c471c7d34.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值