震惊。
起因是今天看到了两个方差公式,一个分母是n,另一个的分母是n-1,这俩还都是对的。
绝了。
我高考前应该是不会对这种事产生疑问的,高考完全还给老师了,惭愧。
进入正题:
如果已知随机变量 的期望为
,那么可以如下计算方差
这很好。
但是,
当你对取样得到的样本集进行求方差操作时:
(为样本均值,
为所求样本集的方差)
震惊。
这是为什么呢?思来想去,我对它有了一点通俗的解释:
在计算整体均值的时候,所有的量都是实实在在存在的,不存在需要通过估算抽选来得到样本,也就是说在总体中每一个个体的存在都是事实。因此在计算方差的时候,每个样本自然都要被纳入计算范围中。
然而,当你对抽样得到的样本进行方差计算的时候,样本均值其实是被抽样固定了的,也就是说样本的均值是随抽样进行而改变的,因此此刻我们不能直接除以样本数n,而是除以自由度n-1。
举个例子来说:
假设农民鲁小夫有十亩玉米地,今年玉米的收成好,十亩地里平均每根玉米有半斤重(合250g),那么这250g的平均玉米重量就是既成的事实,无论你从地里怎样选取,玉米的平均重量就是半斤。
图为快乐的鲁小夫
可惜,鲁小夫比较懒,他并不想对整整十亩地进行全面的调查,因此他选择随机在地里掰n根棒子,用这n根玉米对整体进行估计,岂不美哉?
说干就干!他开始掰棒子,几分钟过去,他掰了十根玉米,玉米的重量排列如下:
240,241,242,...,248,249,250。
这十根玉米的平均重量是:245g
但是他觉得就掰十根太少了,因此他又掰了十根:
230,231,232,...,238,239,240。
现在,二十根玉米的平均重量是:240g
这时候,问题就出现了,所取的样本的均值在取样过程中是不断变化的,因此它不是一个完全客观的量,而是会根据你最后一个样本的确定而确定的量。但是显然,无论你如何取样,整体的平均值永远是250g,这是一个客观的量。因此,在对样本的计算中,我们要除以样本的自由度(n-1),而对总计进行计算的时候,则不需要。
还有一种说法是,你无论如何也无法尽善尽美的用样本估计总体的均值,只要取样,永远都会存在偏差,所以我们要尽力降低偏差带来的影响,所以要除以n-1,但是这个说法我认为不是最好的,因为它没有说明为什么是n-1,而不是n-2或者n-3。
那么为什么要除以n-1?其实已经有前辈进行数学证明了,详情请移步:
https://www.zhihu.com/question/20099757
https://math.stackexchange.com/questions/1363505/prove-that-e-overlinex-mu2-frac1n-sigma2
今天的分享到此为止,那么盆友们,再见