统计| 自由度（degree of freedom）

最新推荐文章于 2024-04-12 12:44:08 发布

Coix

最新推荐文章于 2024-04-12 12:44:08 发布

阅读量8.5k

点赞数 3

分类专栏：统计学

本文链接：https://blog.csdn.net/WeiDelight/article/details/86790468

版权

统计学专栏收录该内容

7 篇文章 10 订阅

订阅专栏

以一个例子来引入自由度吧。想象你有七套衣服，并打算在一周之内每天穿不同的衣服出门。在第一天时，你有7套衣服可以选择。到了第二天，你只能从剩下的6套衣服中选择一套。第三天你只能从剩下的5套中选择一套，依此类推。到了第六天，你仍然可以从2套衣服中选择。但是在第7天时，你没有选择了，只能穿剩下的那套衣服出门。所以你有7-1=6天可以选择穿什么衣服，也就是选择衣服的自由度是6。

那么这就是统计中的自由度的思想。自由度通常被定义为：在估计统计参数时，数据中可以自由变化的观察量的个数。

现在进入数据分析的场景。假设数据集中包含一个观察变量 $X$ 的10个样本，如果你不用它来估计任何事情，那么每个值都可以被取到，每个值都可以完全自由变化。

但是假设你想要用这10个样本来测试总体均值。由于总体均值$ \bar{X}$可以分解为:
$\left(\begin{array} {c} X_1\\ \vdots \\X_n \end{array}\right)=\bar{X}\left(\begin{array} {c} 1\\ \vdots \\1 \end{array}\right)+\left(\begin{array} {c} X_1-\bar{X}\\ \vdots \\X_n-\bar{X} \end{array}\right)$
上面式子的右边第一项只有 $\bar{X}$ 是变化的，所以它的自由度为1。右边第二项受到一个约束是 $\sum_{i=1}^{n}(X_i-\bar{X})=0$ ，所以当你知道前 $n - 1$ 个值之后，那么最后一个也可以确定了，也就是说只有 $n - 1$ 个值是可以变化的。因此这个向量有 $n - 1$ 个自由度。

通常在统计上，人们对数据的具体的样本值不感兴趣，而是对其均值、方差、残差平方和这些统计特征比较感兴趣。在上面的例子中，其残差平方和(Residual Sum-of-Squares, SSR)为：
$\sum_{i=1}^{n}(X_i - \bar{X})^2 = \left\| \begin{array}{c} X_1-\bar{X}\\ \vdots \\ X_n-\bar{X} \end{array} \right \|^2$
如果这个样本点 $X_i$ 是均值为0，方差为 $\sigma^2$ 的正态分布，那么残差平方和就是一个缩放的卡方分布（chi-squared distribution），其自由度为 $n - 1$ 。

类似的，对于单样本的t检验统计量（t-test statistic）：
$\frac{\sqrt{n}(\bar{X}-\mu_0)}{\sqrt{\sum_{i=1}^n(X_i-\bar{X})^2/(n-1)}}$
当假设平均值是正确的时候，其服从一个自由度为 $n - 1$ 的学生 t分布（Student t distribution）。这里的自由度是来自于分布中的残差向量。