昨天我们谈了t检验的主要推导过程,今天我们简单回顾一下,然后重点看看t分布的几个重要的特征。
另一方面,类似我们之前讲解的正态分布,t分布曲线下面积也表示t统计量落在该区间的概率,如下图为所谓的t界值表,横标目为自由度v,纵标目为概率P,一侧尾部面积称为单侧概率,两侧尾巴面积之和称为双侧概率或双尾概率。
上表中数字表示给定的自由度v和P时,对应的t界值,
其中单侧概率的t界值表示为:
双侧概率的t界值表示为:
分别为给定的概率值(比如检验水准0.05)和自由度。
在做t检验的时候,嘴里总念叨的是要做正态性检验。没错,我们前文t分布的推导过程的的起点是样本数据应来源于正态分布。
然而,大量理论和相关的模拟实验都证明:即使从非正态总体中随机抽样,只有样本量n足够大,样本均数就近似服从正态分布,因此统计量t仍近似服从自由度为n-1的t分布。这条性质被称为t统计量的稳健性,这其实就是我们抽样分布那篇文章中强调过的:
根据中心极限定理,从均数为
,方差为
的总体中抽取样本量为n的简单随机样本,当样本量n很大时,无论总体分布形态如何,样本均数
近似服从于正态分布,表示为:
~
而当总体标准差
未知时,用样本标准差
估计,此时的样本均数
经变换后就服从t分布,所以不要求原数据X服从正态分布。
现在的问题就是,到底多大的样本量(n)标准才算足够大呢?其实这个标准并没有很难达到,在一般的现况研究,动辄成百上千的样本量面前,这个标准早就达到了,具体如下:
欢迎关注微信公众号“丁点帮你”,每天帮你解决一个统计小问题,让你每天进步一丁点!