数理统计研究问题的方式,不是对所研究对象的全体(称为总体)进行观察,而是抽取其中的部分(称为样本)进行观察获得数据(抽样),并通过这些数据对总体进行推断。数理统计方法具有“部分推断整体”的特征。
数学中的自由度一般是指能够自由取值的变量个数。数理统计中的自由度是指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的数据的个数,自由度通常记为df。数理统计上的这个定义可以从如下几个方面来理解:
第一,“统计量”(如样本数据的平均数X、样本数据的标准差)是研究者通过调查样本的数据人为地计算出来的,而“参数”(如总体均值μ、总体标准差δ)是被调查的总体所客观存在的,这是两者的区别。在统计学的理论层面上,要求或者假定统计量是参数的无偏估计,认为二者是相等的(在实际研究中,由于抽样的偏差,可能导致两者不相等,但对于这种情况,研究者是无法知道的,知道就没有抽样调查的必要了)。在理论假设下,统计量也就和参数一样被看作是客观的、确定的。
第二,既然在理论上统计量被要求是确定的,那么在实际层面上,计算统计量的那组数据就 不是完全自由的。这一点很重要,因为自由度中“自由”的含义就是相对这个“确定”条件而言的。正是统计量的这种“确定性”限制了与之相关的一组数据的自由度,也就是说,一组数据不是可以完全自由取值的,它必须支持“统计量与总体参数相等”的理论假设。这就是自由度存在的理由。
有必要举例来进一步说明“独立或能自由变化的数据”的含义。在心理、社会等领域的测量或者调查过程中,研究者设置了一些变量(如智商、收入等),这些变量是随机变量。所谓随机变量是指,在调查总体中,变量的取值范围及其所对应的频次(两者合起来称为变量的分布)是确定的,但在一次具体的抽样调查中,变量的取值及其所对应的频次则是不确定的,但在大样本的抽样调查中,变量的分布又是能体现总体的特征和规律的。
例如:研究者在调查某个城市在岗职女工的平均收入时,从总体