以一个例子来引入自由度吧。想象你有七套衣服,并打算在一周之内每天穿不同的衣服出门。在第一天时,你有7套衣服可以选择。到了第二天,你只能从剩下的6套衣服中选择一套。第三天你只能从剩下的5套中选择一套,依此类推。到了第六天,你仍然可以从2套衣服中选择。但是在第7天时,你没有选择了,只能穿剩下的那套衣服出门。所以你有7-1=6天可以选择穿什么衣服,也就是选择衣服的自由度是6。
那么这就是统计中的自由度的思想。自由度通常被定义为:在估计统计参数时,数据中可以自由变化的观察量的个数。
现在进入数据分析的场景。假设数据集中包含一个观察变量 X X X的10个样本,如果你不用它来估计任何事情,那么每个值都可以被取到,每个值都可以完全自由变化。
但是假设你想要用这10个样本来测试总体均值。由于总体均值$ \bar{X}$可以分解为:
(
X
1
⋮
X
n
)
=
X
ˉ
(
1
⋮
1
)
+
(
X
1
−
X
ˉ
⋮
X
n
−
X
ˉ
)
\left(\begin{array} {c} X_1\\ \vdots \\X_n \end{array}\right)=\bar{X}\left(\begin{array} {c} 1\\ \vdots \\1 \end{array}\right)+\left(\begin{array} {c} X_1-\bar{X}\\ \vdots \\X_n-\bar{X} \end{array}\right)
⎝⎜⎛X1⋮Xn⎠⎟⎞=Xˉ⎝⎜⎛1⋮1⎠⎟⎞+⎝⎜⎛X1−Xˉ⋮Xn−Xˉ⎠⎟⎞
上面式子的右边第一项只有
X
ˉ
\bar{X}
Xˉ是变化的,所以它的自由度为1。右边第二项受到一个约束是
∑
i
=
1
n
(
X
i
−
X
ˉ
)
=
0
\sum_{i=1}^{n}(X_i-\bar{X})=0
∑i=1n(Xi−Xˉ)=0,所以当你知道前
n
−
1
n-1
n−1个值之后,那么最后一个也可以确定了,也就是说只有
n
−
1
n-1
n−1个值是可以变化的。因此这个向量有
n
−
1
n-1
n−1个自由度。
通常在统计上,人们对数据的具体的样本值不感兴趣,而是对其均值、方差、残差平方和这些统计特征比较感兴趣。在上面的例子中,其残差平方和(Residual Sum-of-Squares, SSR)为:
∑
i
=
1
n
(
X
i
−
X
ˉ
)
2
=
∥
X
1
−
X
ˉ
⋮
X
n
−
X
ˉ
∥
2
\sum_{i=1}^{n}(X_i - \bar{X})^2 = \left\| \begin{array}{c} X_1-\bar{X}\\ \vdots \\ X_n-\bar{X} \end{array} \right \|^2
i=1∑n(Xi−Xˉ)2=∥∥∥∥∥∥∥X1−Xˉ⋮Xn−Xˉ∥∥∥∥∥∥∥2
如果这个样本点
X
i
X_i
Xi是均值为0,方差为
σ
2
\sigma^2
σ2的正态分布,那么残差平方和就是一个缩放的卡方分布(chi-squared distribution),其自由度为
n
−
1
n-1
n−1。
类似的,对于单样本的t检验统计量(t-test statistic):
n
(
X
ˉ
−
μ
0
)
∑
i
=
1
n
(
X
i
−
X
ˉ
)
2
/
(
n
−
1
)
\frac{\sqrt{n}(\bar{X}-\mu_0)}{\sqrt{\sum_{i=1}^n(X_i-\bar{X})^2/(n-1)}}
∑i=1n(Xi−Xˉ)2/(n−1)n(Xˉ−μ0)
当假设平均值是正确的时候,其服从一个自由度为
n
−
1
n-1
n−1的学生 t分布(Student t distribution)。这里的自由度是来自于分布中的残差向量。
参考资料: