样本方差与总体方差
对一个数据集的描述有很多方式,其中数据的集中趋势、离散程度、偏态与峰态都是可以客观的体现一个数据集的形态。
在数据集的离散程度上,方差和标准差是实际应用较多的特征值。在理解样本方差和总体方差的公式上有了疑惑,于是将公式拿出来推导一下。(总体和样本的概念想提一下,对于一个西瓜而言,包含的所有西瓜子就是一个总体;对半切开之后,其中的一瓣的所有西瓜子就是一个样本。)
总体方差公式:
样本方差公式:
可见样本的方差公式分母为 n-1,而总体的方差公式分母为 N;分母的差异也源于分子中样本平均值(x ba)与总体平均值(mu)的差异。下面我们就来推导一下:
除非样本平均值与总体平均值相等,否则样本的方差值是小于总体的方差值。为了使我们只有样本的情况下得出无偏估计方差,将样本方差公式的分母修正为 n-1(样本的自由度),至于为什么这样修正,等我再需要了解的时候再补充。