如何理解T检验和P值

  • t检验是通过比较不同数据的均值,研究两组数据之间是否存在显著差异。
  • p值是一组数据的均值(以及比这种数据更极端的数据的均值)在另一组数据的均值所代表的总体中出现的概率。当p值越小,说明两者差异越显著,因为这说明一组数据是另一组数据所代表的总体中的样本的可能越小(因为两者的均值差异)。

接下来是我转自知乎上的一个通过一个例子来详尽的解析T检验及P值的文章,我看完颇有启发。


转载自知乎T检验和其他假设检验的P值怎么理解

关于T检验以及各种假设检验的操作方法,网络上有很多详细讲解。今天我们不谈具体的步骤,而是通过案例全方面地将T检验的逻辑和思想,掰开揉碎,尝试用白话讲一步,增进大家的理解,不知知足欢迎指出讨论。

案例:5年前,全国男性的平均身高是1.75米(普查得到的总体均值),现在我们想知道如今男性的平均身高是否发生了改变。

思路:从全国男性群体中随机抽取1000名样本,获得样本均值和样本标准差,进行假设检验。

此处需要提醒的是,在进行假设检验时,我们的关注点在样本均值上,即我们不太关注原始样本的情况,而是关注由这个样本计算的样本均值了。

现在,在脑海中重复上面的操作:比如我们随机抽取100次,每次都抽取1000名,所以,我们会得到100个样本均数,将这100个样本均数放在一起再求均数和标准差,得到的均数会更加接近全国这个总体的均数,而这个标准差就是你听过的“标准误”。

然而,现实情况中我们只会抽取一次,只会得到一个样本均数和一个样本标准差,虽然这一个样本均数不如上面由100个样本均数平均后计算地精确,但在数学上仍可以证明,这一个样本均数也可以用来很好地估计总体均数。所以,问题的关键就变成了,不抽取100次,怎么计算“标准误”?好在我们也能证明,只抽样一次获得的样本标准差(S),除以根号N就可以得到“标准误”的估计值了,于是抽样一次就可以简单算出“标准误”,再次提醒,这个“标准误”实际上就是均数的标准差。

现在我们正式开始T检验的思路。上文提到了,我们关注的随机变量已经不是原始的身高了,而是身高的均数,身高的均数,身高的均数(重要的话,讲三遍)。所以,身高均数成为了我们研究的随机变量,它也存在总体与样本的区分,它也有均值和标准差,而且我们还可以确定无论身高是否真正服从正态分布,身高均值这个变量总是近似服从正态分布(中心极限定理),由此我们就可以利用这些性质进行假设检验。

回到上面的问题,5年前全国男子身高的总体均值是1.75米(μ),我们想知道现在是否有变化,其实就是想检验,5年后的现在全国男子身高的总体均值是否还是1.75米。因为我们不进行普查,所以我们希望通过随机抽取一个1000人的样本来进行推断和检验。得到样本后,我们可以计算出样本均数、样本标准差以及标准误。

假设样本均数为 1.77,显然我们不能因为1.77和1.75这两个数字的不同就判断说现在全国男子的平均身高要大于5年前了。因为即使现在的身高没有变化,你随机抽取一个1000人的样本得到的样本均数也不可能就恰好等于1.75,这很好理解,抽样是有误差的。于是,我们就要搞清楚现在得到的这个样本均数(1.77)和5年前的总体均数(1.75)的差异仅仅是因为抽样误差,还是确实是因为现在人们的平均身高发生了变化,这里的“变化”用数学的语言表达就是:现在全国男子身高的总体均数到底还是不是1.75,注意这里是“总体均数”,也就是说我们真正关心的是总体,样本只是用来获得总体信息的一个手段。

我们先假设,现在的总体均数没有变,仍等于1.75。所以,我们抽取的1000人就认为是在这个总体中抽取的一个样本。在零假设情况下,这个总体的均数是1.75,而我们获得的样本计算出来的样本均数是1.77,假设检验的问题就转换成了:在一个总体均数为1.75的总体中,抽到如今这个样本的概率是多少?

很明显,如果这样问,答案肯定就是0。在先前的文章中,我们知道一个样本相当于数轴上的一个点,而从一个数轴中抽取一个点的概率就是0。然后,你就看到了那句“永远让人费解的话”:P值是抽取到现有样本或更极端情况样本的概率。

如果把样本割裂来看,抽到一个样本的概率就是0,而“现有样本或更极端情况的样本”中的“或”字表明,P不是指的一个点的概率,而是一个区间的概率,也就是在μ为1.75的总体中,根据抽到的样本计算的样本均值比1.77还要大的样本(比如1.78或1.80),这些样本合起来的概率就是P,而这些样本相对均数为1.75的总体而言便是“更极端样本”了。看到这里,你可以想想这句话怎么用概率式子表示出来呢?

最后一个问题就是,如何计算P值?这里需要的基础知识是:知道一个变量服从正态分布,怎么计算这个变量在某个区间上的概率。比如,随机变量X服从均值为2.5,标准差为1.6的正态分布,如何求X<4的概率。这种问题的解法应该都学过,我们简单回顾一下。首先将X进行标准化处理(即将变量减去均数然后除以标准差),比如将4标准化:(4-2.5)/1.6=0.94,然后查标准正态概率分布表P(Z≤0.94)=0.8264,于是就得到P(X<4)=0.8264。

了解概率的计算方法,我们就知道了,假设检验求P值就可以等价为求P(>1.77)(这里只考虑单侧检验,就是我们知道身高不可能比原来还矮,只可能不变或变高,更严谨的写法或者是双侧检验应该是: P ( ∣ X ‾ − μ ∣ > ∣ 1.77 − μ ∣ ) P(|\overline X - μ| > |1.77 - μ|) P(Xμ>1.77μ),即P值是在零假设下得到那些值的概率,这些值与μ的距离比1.77与μ的距离更远,绝对值理解为“与均值的距离”)。这里的 X ‾ \overline X X 跟上面的X一样看做一个变量,而1.77就是这个变量的一次取值。仿照上面的例子, X ‾ \overline X X 是近似服从正态分布的,如果知道其分布的均数(μ)和标准差( σ / n σ/ \sqrt n σ/n ),就可以计算出来P( X ‾ \overline X X>1.77)。

需要区分的是,因为 [公式] 所在分布的标准差( σ / n σ/ \sqrt n σ/n ,即上文提及的“标准误”)实际中经常是不知道的,所以需要用样本值来代替( S / n S/ \sqrt n S/n ),而当用到样本值时,经过“标准化”后就不再服从标准正态分布,而是我们无比熟悉的t分布。通过我们的t检验公式(如下,把 S / n S/ \sqrt n S/n 当成“标准差”这个整体来看),不就是一个“标准化”吗:
t = X ‾ − μ S / n t = \frac{\overline X - μ}{S/ \sqrt n} t=S/n Xμ

将相关的数据代入,我们就可以得到一个t值,记为t0,通过查阅t分布(结合自由度),得出的P(t>t0)就是我们上面要求的P( X ‾ \overline X X >1.77),也就是我们常说的P值。

至此,我们完整地还原了单样本t检验的整个过程。文章的目的是增进大家的理解,所以在某些细节方面笔墨较少(比如在单侧或双侧的问题等),但并不妨碍大家对检验原理和P值意义的认识。相信下次当你再看到P值的定义——抽取现有样本或更极端情况样本的概率,会有所了然。

我们今天虽仅仅讲解了单样本t检验,但其他检验(如两独立样本t检验、配对t检验,以及单样本方差分析、卡方检验)遵循的思路一致,仅仅只是样本的分布在发生变化。回顾一下,理解这些假设检验方法的精髓其实就在于:把样本均数而不是原始样本个体要当做一个随机变量来看,即我们研究的是 X ‾ \overline X X,不是X,在实际操作中,我们会得到很多X,只会得到一个 X ‾ \overline X X,但我们需要通过联想,想象出很多 X ‾ \overline X X,理解起来就会容易很多。

  • 15
    点赞
  • 43
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值