学过概率统计的孩子都知道,统计里最基本的概念就是样本的均值,方差,或者再加个标准差。首先我们给你一个含有n个样本的集合,依次给出这些概念的公式描述,这些高中学过数学的孩子都应该知道吧,一带而过。
很显然,均值描述的是样本集合的中间点,它告诉我们的信息是很有限的,而标准差给我们描述的则是样本集合的各个样本点到均值的距离之平均。以这两个集合为例,[0,8,12,20]和[8,9,11,12],两个集合的均值都是10,但显然两个集合差别是很大的,计算两者的标准差,前者是8.3,后者是1.8,显然后者较为集中,故其标准差小一些,标准差描述的就是这种“散布度”。
为什么方差的分母是n-1?
结论: 这个问题本身概念混淆了。如果已知全部的数据,那么均值和方差可以直接求出。但是对一个随机变量X,需要估计它的均值和方差,此时才用分母为n-1的公式来估计他的方差,因此分母是n-1才能使对方差的估计(而不是方差)是无偏的。因此,这个问题应该改为,为什么随机变量的方差的估计的分母是n-1?
一组数据,求其标准差,用除以n的那个。注意,这组数据是我们研究的全部,即总体。总体标准差。
如果我们研究的是总体,总体的规模很大甚至无穷,我们对总体进行n次观察,得到容量为n的一组数据,称为总体的一个样本,求标准差时应该用除以n-1的那个。
除以n-1的那个称为样本标准差,它是总体标准差的无偏估计。
如果我们已经知道了全部的数据,那就可以求出均值μ,sigma,此时就是常规的分母为n的公式直接求,这并不是估计!
现在,对于一个随机变量X,我们要去估计它的期望和方差。
期望的估计就是样本的均值
现在,在估计的X的方差的时候,如果我们预先知道真实的期望μ,那么根据方差的定义:
这时分母为n的估计是正确的,就是无偏估计!
但是,在实际估计随机变量X的方差的时候,我们是不知道它的真实期望的,而是用期望的估计值去估计方差,那么:
所以把分母从n换成n-1,就是把对方差的估计稍微放大一点点。至于为什么是n-1,而不是n-2,n-3,…,有严格的数学证明。
因为样本均值与实际均值有差别。
如果分母用n,样本估计出的就方差会小于真实方差。
维基上有具体计算过程:
http://en.wik