如何理解统计学中「自由度」这个概念？

转：https://www.zhihu.com/question/20983193

作者：DeviliveD
链接：https://www.zhihu.com/question/20983193/answer/28228799
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

维基百科上提纲挈领是这么说的：Degrees of freedom (statistics)
In statistics, the number of degrees of freedom is the number of values in the final calculation of a statistic that are free to vary.

关于样本方差，里面提到：
i.e., the sample variance has N-1 degrees of freedom, since it is computed from N random scores minus the only 1 parameter estimated as intermediate step, which is the sample mean.

言简意赅，我也没法说得更好了。

拾人牙慧，这里谈谈我的理解。

简单说， [公式] 个样本，如果在某种条件下，样本均值是先定的 (fixed)，那么只剩个样本的值是可以变化的。

下面这个例子也许可以说明：

假设你现在手头有 3 个样本， [公式] 。因为样本具有随机性，所以它们取值不定。但是假设出于某种原因，我们需要让样本均值固定，比如说，，那么这时真正取值自由，”有随机性“ 的样本只有 2 个。试想，如果 ,那么每选取一组的取值，将不得不等于 [公式] 对于第三个样本来说，这种 “不得不” 就可以理解为被剥夺了一个自由度。所以就这个例子而言，3 个样本最终"自由"的只有其中的 2 个。不失一般性，个样本，留出一个自由度给固定的均值，剩下的自由度即为。

突兀的举上面这个例子干什么？事实上，计算样本方差时，样本均值就需要给定。计算样本均值也就是维基百科里提到的 'intermediate step'。如果你去观察计算样本方差的一系列表达式，比如往往最常会被介绍的方差的无偏估计（样本方差） [公式] ，你会发现样本均值这一项都包含在内。考虑到方差是衡量数据偏差程度的统计量，计算一下样本均值作为中间步骤的中间量，也不失其合理性。于是，为计算样本方差，样本里原有的个自由度，有一个自由度被分配给计算样本均值，剩下自由度即为 [公式] 。

样本方差”这个词其实容易令人产生误解。方差，作为位置参数，众多统计量都可以作为方差的估计。你说的系数为n-1的俗称样本方差的统计量，是方差的一个无偏估计。把系数变为 1/n，也是一个估计方差的统计量，也可以称为样本方差。事实上，方差的极大似然估计（MLE）即为系数为 1/n 的那个样本方差。为了追求无偏的话，1/(n-1) 这样的系数恰好可以消掉由 n-1 自由度的方差表达式，所以就这个意义上说，除以 n-1 和自由度有关系。