统计| 自由度(degree of freedom)

以一个例子来引入自由度吧。想象你有七套衣服,并打算在一周之内每天穿不同的衣服出门。在第一天时,你有7套衣服可以选择。到了第二天,你只能从剩下的6套衣服中选择一套。第三天你只能从剩下的5套中选择一套,依此类推。到了第六天,你仍然可以从2套衣服中选择。但是在第7天时,你没有选择了,只能穿剩下的那套衣服出门。所以你有7-1=6天可以选择穿什么衣服,也就是选择衣服的自由度是6。

那么这就是统计中的自由度的思想。自由度通常被定义为:在估计统计参数时,数据中可以自由变化的观察量的个数

现在进入数据分析的场景。假设数据集中包含一个观察变量 X X X的10个样本,如果你不用它来估计任何事情,那么每个值都可以被取到,每个值都可以完全自由变化。

但是假设你想要用这10个样本来测试总体均值。由于总体均值$ \bar{X}$可以分解为:
( X 1 ⋮ X n ) = X ˉ ( 1 ⋮ 1 ) + ( X 1 − X ˉ ⋮ X n − X ˉ ) \left(\begin{array} {c} X_1\\ \vdots \\X_n \end{array}\right)=\bar{X}\left(\begin{array} {c} 1\\ \vdots \\1 \end{array}\right)+\left(\begin{array} {c} X_1-\bar{X}\\ \vdots \\X_n-\bar{X} \end{array}\right) X1Xn=Xˉ11+X1XˉXnXˉ
上面式子的右边第一项只有 X ˉ \bar{X} Xˉ是变化的,所以它的自由度为1。右边第二项受到一个约束是 ∑ i = 1 n ( X i − X ˉ ) = 0 \sum_{i=1}^{n}(X_i-\bar{X})=0 i=1n(XiXˉ)=0,所以当你知道前 n − 1 n-1 n1个值之后,那么最后一个也可以确定了,也就是说只有 n − 1 n-1 n1个值是可以变化的。因此这个向量有 n − 1 n-1 n1个自由度。

通常在统计上,人们对数据的具体的样本值不感兴趣,而是对其均值、方差、残差平方和这些统计特征比较感兴趣。在上面的例子中,其残差平方和(Residual Sum-of-Squares, SSR)为:
∑ i = 1 n ( X i − X ˉ ) 2 = ∥ X 1 − X ˉ ⋮ X n − X ˉ ∥ 2 \sum_{i=1}^{n}(X_i - \bar{X})^2 = \left\| \begin{array}{c} X_1-\bar{X}\\ \vdots \\ X_n-\bar{X} \end{array} \right \|^2 i=1n(XiXˉ)2=X1XˉXnXˉ2
如果这个样本点 X i X_i Xi是均值为0,方差为 σ 2 \sigma^2 σ2的正态分布,那么残差平方和就是一个缩放的卡方分布(chi-squared distribution),其自由度为 n − 1 n-1 n1

类似的,对于单样本的t检验统计量(t-test statistic):
n ( X ˉ − μ 0 ) ∑ i = 1 n ( X i − X ˉ ) 2 / ( n − 1 ) \frac{\sqrt{n}(\bar{X}-\mu_0)}{\sqrt{\sum_{i=1}^n(X_i-\bar{X})^2/(n-1)}} i=1n(XiXˉ)2/(n1) n (Xˉμ0)
当假设平均值是正确的时候,其服从一个自由度为 n − 1 n-1 n1的学生 t分布(Student t distribution)。这里的自由度是来自于分布中的残差向量。

参考资料:

  1. Degrees of freedom (statistics)

  2. What Are Degrees of Freedom in Statistics?

  • 3
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值