统计正数和负数的个数然后计算这些数的平均值_统计学“自由度”详解

本文皆为个人看法,才疏学浅,如果有不妥不准确的对方,还请指正。有些数学推导可能显得不严谨,主要是为了数学基础薄弱的同学能看懂。

“自由度”是统计学中一个很不好懂的概念,因为它的定义有好几个,而每个定义都是从不同的侧面来解说,所以对它的理解要求你有一定的数学知识,因为只有具备了足够的数学知识你才发现这几个定义是相通的,否则你会感到无所适从。某一种定义你觉得自己懂了,然后去运用它,发现在有些情况下你无法运用你所懂的自由度知识去分析问题。但是如果运用另一种自由度的定义则可以解释清楚。

首先我们要明白统计学中的自由度到底有什么用。出现自由度的地方一般都会出现某种检验方法,比如 t 检验,独立性卡方检验,回归模型的模型显著性检验等等。要不是这些地方需要自由度,个人感觉统计学中的“自由度”就没必要出现了。

统计学中有三大分布:t分布,卡方分布和F分布,其中t分布和F分布都和卡方分布有关。两个独立的卡方分布统计量就能形成一个F分布的统计量,标准正态分布和卡方分布在一起又能构成一个t分布,而要确定卡方分布最终的密度函数就必须先确定卡方分布的自由度,否则统计量的概率就没办法计算。卡方分布其实是伽马分布的一个特例,伽马分布有两个参数,一个是形状参数,另一个是尺度参数,当尺度参数固定为2,或1/2(因为伽马分布有两种不同的写法,写法不同这个具体的值就不同。写法虽然不同但是它们是等价的,例如1/a和 a^-1 写法不同但是是同一个意思),卡方分布的自由度参数对应的就是伽马分布的尺度参数,只要卡方分布的自由度一确定,则密度函数就确定了,就可以计算卡方分布的概率。

在我个人看来自由度有两种:统计量的自由度统计量抽样分布的自由度。碰巧,统计量的自由度和它的抽样分布的自由度一般是相等的,所以这两种自由度就被混用了,一般并不作区分。正因为如此,导致“自由度”的概念非常不好理解。不好理解的是“统计量的自由度”,但是“统计量的自由度”没有意义,后文会提到。真是莫大的讽刺。

统计学中所有检验方法如果需要求自由度,则都会告诉你自由度怎么计算,比如单因素方差分析,组间平方和的自由度是总处理数减一,经典线性回归(带截距)中回归平方和的自由度是预测变量的个数。对于我们普通人来讲其实根本不需要知道计算自由度的原理,只有你在设计新的检验方法,并且其中有卡方分布的话你才需要知道怎么得到自由度,因为你要告诉使用你检验方法的人计算自由度。设计新的检验方法,对于一般人来讲有点太遥远了。

下面讲讲统计学中自由度的不同定义。

第一种定义:总体参数估计量中变量值独立自由变化的个数(也可以理解为独立变量的个数)。比如样本方差是用来估计总体方差的,样本方差我们第一步是计算样本离差平方和,

,其中
,然后用SS除以 n 或者(n-1)。通常是除以n-1,因为这样样本方差是无偏估计,如果是大样本,则无所谓。样本方差 s 的自由度其实说的是 SS 的自由度,这里SS的自由度怎么算?根据定义来计算。SS中一共有n个随机变量,在计算SS之前必须先要估计总体平均值,于是用这n个样本估计平均值
,在真正计算SS的时候其实只有n-1个自由变量,因为其中一个变量的值一定是平均值的n倍减去另外n-1个值的和。n个独立随机样本,因为不知道总体的均值,在计算样本方差的时候要用样本估计总体平均值,结果就导致自由度减一,所以SS的自由度是n-1。

上面这段话不是很好理解,是因为我们抽样通常只抽样一次,要是进行多次抽样那就比较好理解了。第一次抽样,计算样本方差,你要计算样本均值。假如接着进行第二次抽样,这次抽样前假设样本的均值和第一次抽样一致,那么第二次抽样前n-1个值你可以随机从总体中抽取,但是最后一个值就不能随意抽取了,如果最后一个还是随机抽取,那么样本均值就不会等于第一次抽样的样本均值。第二次抽样和第一次抽样有区别吗,没区别。你完全可以把第二次抽样看成是第一次抽样。相信看文章的你应该明白为什么计算了下样本均值作为总体均值的估计值就让自由度减少1了吧。

如果总体的均值是已知的,那么

自由度是多少?自由度是n,为何?因为你可以随机从总体抽取n个值,原因就是你没有了样本均值必须为
的约束。上面第二次抽样中就是因为必须要均值为
这个约束才导致最后一个值不能随意抽取。

第二种定义:自由度是样本容量n减去独立限制因素的个数。仔细想想其实和第一种定义说的是一个意思。样本容量就是样本个数,一个样本可以看成是一个随机变量(这样说不太准确,但是可以这么来理解)。计算样本方差的时候

就是一个限制因素。从第二种定义我们也能很轻松的计算出SS的自由度是n-1。

第三种定义:看总体参数估计量中使用了几个总体参数估计量,假设使用了m个,则自由度是样本容量n减m。计算样本方差的时候使用了一个总体参数估计量(样本平均值

),所以SS的自由度是n-1。

以上三种定义碰到简单的情况还好,稍微复杂点就不好计算了。比如经典线性回归里面的回归平方和SSR的自由度。

第四种定义:自由度是一个随机向量的自由维度数,也就是一个向量能被完整描述所需的最少单位向量数。

Fisher 给“Student(t分布的发现者)”解释自由度的时候是这么来解释的:将n个样本随机变量构造成一个随机向量,那么这个向量可以看成是n维空间的一个点,每有一个约束条件,则向量的自由维度减1。比如n个样本在求样本方差的时候要先计算样本均值,所以最后一个变量就和前面n-1个相关,这样随机向量只能有n-1个元素可以在n-1维空间自由取值。在Fisher指出老皮尔逊的卡方检验方法自由度计算错误的时候他是用“约束”这个词来解释的,这个“约束”有点像上面的定义二。

如果所研究的问题能抽象为模型,使用第四种定义计算自由度会容易很多。n个随机样本看成n个随机变量,这n个样本随机变量可以表示为

维单位矩阵,因为 I 的列空间是n维,Iy=y,所以y一定在 I 的列空间中,y的n个元素可以在n维空间自由取值,推出y的自由度是n。下面计算线性回归拟合值(回归方程部分)的自由度。
是估计出来的回归系数向量,很显然,拟合值向量
一定在设计矩阵X的列空间中,X列空间维度是回归系数个数,假设有p个预测变量,加上截距则回归系数个数是p+1,所以拟合值向量的自由维度就是p+1。回归平方和
是样本因变量的平均值,需要估计出来,失去一个自由度,所以SSR的自由度是拟合值的自由度减1,即p。因变量y的自由度是n,拟合值的自由度是p+1,那么残差向量的自由度是n-(p+1),为什么?
,残差向量
垂直于“设计矩阵列空间”,也就是它在设计矩阵列空间的垂直补空间中,y是n维,设计矩阵列空间是 p+1维,p+1<=n,则残差向量维度是 n-(p+1),也就是残差向量的自由度为n-(p+1),接着可以推出残差平方和
的自由度是 n-(p+1)。

第四种定义计算方差分析中的自由度也非常方便,因为方差分析可以写成模型的形式。

还有一种利用二次型计算自由度的方法。第五种定义:一个二次型的自由度就是二次型矩阵的秩。平方和其实就是一个二次型,如果能把平方和表达成二次型的形式,那直接计算二次型矩阵的秩即可得到平方和的自由度。计算样本方差的平方和

转化为一个二次型的表达式有点难度,像模型类的转化起来就容易一些。线性回归将平方和转化为二次型表达式的例子可以看这篇文章,这篇文章对二次型求自由度讲的比较详细,我就不再做更多的解说。

为什么二次型矩阵的秩就是对应平方和的自由度呢?

,Q是对称矩阵,则Q一定可以正交对角化为PAP',P为正交矩阵,A为对角矩阵,对角元素就是Q的特征值,特征值不为0的个数等于Q的秩,Q的秩设为r。设随机向量P'y的元素是
,很显然
是原随机变量
的线性组合,
可以看成是 y 在
上的投影,很明显就能推出
互不相关,
展开后必然有 r 个
的平方相加,这 r 个
互不相关,意味着有 r 个可以自由变化的随机变量 。就推导出二次型
的自由度为 r。这里额外说下,如果 y 符合多元正态分布,则
是正态分布随机变量。

自由度可能还有其他的定义,但是上面5种基本就是主流定义了。

自由度有时候是非整数的,比如独立两样本t检验中,如果方差不齐,我们会有方差不齐的检验统计量,这个统计量的自由度计算出来后通常是非整数。比如两个独立样本的样本容量分别为n1,n2,那么样本均值差的方差=s1方/n1+s2方/n2,检验统计量是t=均值差/样本均值差的标准差,这个t分布的自由度是 n1+n2-2吗?不是的,如果你按照n1+n2-2来算的话,严重高估了实际自由度,会造成检验的不准确。方差分析中的多重比较有方差不齐的比较方法,这些方法的自由度计算出来一般也是非整数。碰到这一类的自由度计算,以上介绍的方法都不适用。当你学习一个新的统计推断方法的时候你一定要看看它的自由度是如何计算的,有可能它的计算很复杂。

看到这里,大家有没有深思?当碰到“方差不齐的独立两样本t检验”为何我们不能再用前面介绍的一些方法去判断它的自由度呢?是因为它太复杂了,复杂到无法用一般语言去解释,只能使用一种纯数学的方法去求解自由度反而是最好的理解方式。t检验的t统计量符合t分布,那么好吧,就直接去估计出t分布的真实自由度把,就是这么直接,就是这么直接得普通人更本不会算。

如果不是要确定符合卡方、t或F分布统计量的自由度,那么“自由度”这个概念几乎是毫无意义!!

统计量的自由度这个概念毫无意义。比如样本方差的自由度,样本方差自由度的最大作用就是把人搞晕,把简单的“自由度”概念复杂化,神秘化。为什么样本方差自由度无意义可以看这篇文章:样本方差分母为n-1的解释 。

统计量分布的自由度才是有意义的,并且是容易让人理解的,如果我们不提“统计量的自由度”,而只是在要确定统计量分布的自由度的时候提到自由度,那么“自由度”不再神秘,不再那么不好理解,那么我们前面提到的5种自由度的解释也就没什么必要了。因为分布的真实自由度直接去求即可,只要你具备一定的数学知识,得到分布的真实自由度并不难。

一个统计学家发明一个新的检验方法,他一定会用直接的数学方法去求解统计量分布的“自由度”,而不是用我上面的5种方法,上面5种方法是给门外汉解释什么是“自由度”的。前人先求解出真正的自由度,然后再用大白话给你解释自由度为什么是这么多,而不是直接用大白话给你解释的自由度去决定真正的自由度。比如列联表卡方检验自由度是(r-1)*(c-1),我们会说要估计的总体参数是 (r+c-2),然后样本容量固定,损失一自由度,所以自由度是(r-1)*(c-1)。我们今天敢理直气壮的这么说那是因为Fisher用数学证明后发现是这样,懂了吗,这是被Fisher严格数学证明之后的结果。如果是“不完备”列联表卡方检验,是否可以直接先按照“完备列联表”计算出自由度,然后再减去“先验零”格子的个数呢?按照上面提到的“完备列联表”自由度计算公式(r-1)*(c-1), “不完备”列联表自由度的计算这么去算好像非常合理,对吧。你要是敢这么去算那简直就是 no zuo no die !

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值