[Prob] Fisher exact test

A scientist wishes to study whether women or men are more likely to have a certain disease, or whether they are equally likely.

A random sample of n women and m men is gathered, and each person is tested for the disease (assume for this problem that the test is completely accurate). The numbers of women and men in the sample who have the disease are X and Y respectively, with X ∼ Bin(n, p1) and Y ∼ Bin(m, p2), independently. Here p1 and p2 are unknown, and we are interested in testing whether p1 = p2 (this is known as a null hypothesis in statistics).

 

 

费希尔确切检验(Fisher's exact test)和条件概率分布在统计学中的应用。文中讨论了一个假设检验的例子:比较两组(女性和男性)在某种疾病上的发病率是否相同。随机变量 \( X \) 和 \( Y \) 分别代表女性和男性患病的人数,都服从二项分布。假设条件是我们观察到的 \( X + Y = r \),即总共有 \( r \) 人患病。

在费希尔确切检验中,我们要计算在给定 \( X + Y = r \) 的条件下,\( X \) 的概率分布,这实际上就是一个条件概率分布问题。使用贝叶斯定理,我们可以得到:

\[ P(X = x | X + Y = r) = \frac{P(Y = r - x)P(X = x)}{P(X + Y = r)} \]

由于 \( X \) 和 \( Y \) 是独立的,我们可以将上式简化为 \( X \) 的超几何分布,其参数为 \( n \), \( m \), 和 \( r \)。

在这种情境下,超几何分布是自然出现的,因为我们实际上在一个固定大小的群体中不放回地抽样。这里的关键是,尽管 \( X \) 和 \( Y \) 的分布可能依赖于未知的概率 \( p \)但条件分布 \( P(X = x | X + Y = r) \) 实际上与 \( p \) 无关。这是因为一旦确定了总共有 \( r \) 人患病,那么具体有多少女性患病的概率只取决于 \( n \), \( m \), 和 \( r \),而与 \( p \) 无关。这个结论反映了超几何分布的一个重要性质:在无放回抽样的条件下,抽取特定数量成功(或特定特征)的样本的概率与抽样之前的概率无关。

这个例子也是以下定理的证明:即使在未知原始生成人群的概率 \( p \) 的情况下,我们也可以直接处理患病人数 \( r \) 和健康人数 \( n + m - r \),来确定 \( X \) 的条件分布。

所以,计算P(X=x∣X+Y=r)的目的与效果与结论有什么关系?

假设我们有一篮子水果,里面有20个苹果和10个橙子,总共30个水果。现在,我们不看篮子里面,随机拿出10个水果。我们感兴趣的是,这10个水果中有多少个是苹果。

在这里,苹果的数量就是随机变量 X,拿出的水果总数是固定的10个,所以 X+Y=10,其中 Y 是橙子的数量。

如果我们假设苹果和橙子被拿出来的机会一样大,我们就可以用超几何分布来计算具体拿出若干苹果的概率。超几何分布告诉我们,在不放回的情况下从有限的总体中抽样的概率。

通过计算 P(X=x∣X+Y=10),我们实际上是在问:“如果我们已经知道总共拿了10个水果,那么其中恰好有 x 个苹果的概率是多少?”这个概率不依赖于我们最初认为拿到苹果的概率是多少,它只依赖于苹果和橙子的总数,以及我们拿了多少个水果。

用这个方法,我们可以确定各种不同情况的概率,并用这些信息来判断拿水果的过程是否公平(也就是检验我们的假设是否正确)。在实际应用中,这可以帮助我们判断两个群体(比如男性和女性)是否在某个特性(比如患病率)上有差异。

所以,我可以比较实际比例与超几何假设下的比例,来检验我的所谓零假设?

是的,你可以使用超几何分布来检验你的假设。具体来说,你可以按照以下步骤进行:

  1. 制定假设:假设你的零假设是“拿出的水果中苹果的比例等于0.67(即20/30)”,备择假设是“拿出的水果中苹果的比例不等于0.67”。

  2. 计算期望比例:根据零假设计算拿出的10个水果中苹果的期望数量。在这种情况下,期望数量为10 * 0.67 = 6.7。

  3. 计算概率:使用超几何分布计算出在零假设下,得到实际数量或更极端数量的苹果的概率。如果这个概率很低(通常小于0.05),那么你就有足够的证据来拒绝零假设,认为实际比例与零假设下的比例有显著差异。

  4. 做出决策:基于概率值,你可以决定是否拒绝零假设。如果概率值很低,你可以认为实际比例与零假设下的比例不同;如果概率值较高,你可能无法拒绝零假设,即不能确定实际比例与零假设下的比例有显著差异。

当我们进行统计推断时,通常会提出一个零假设(null hypothesis)和一个备择假设(alternative hypothesis)。

  • 零假设:零假设是我们想要进行检验的假设,通常表示没有效应或没有差异的假设。在你的例子中,零假设可能是拿出的水果中苹果的比例等于0.67。

  • 拒绝零假设:拒绝零假设意味着我们有足够的证据表明零假设可能是错误的。在统计学中,我们使用概率来判断是否拒绝零假设。如果概率(通常称为 p 值)很低(通常小于0.05),我们通常会拒绝零假设,认为我们的数据支持备择假设。

  • 要求概率相同吗?:在统计推断中,并不是要求概率相同。相反,我们关注的是在零假设成立的情况下,观察到我们的数据或更极端数据的概率。如果这个概率很低,我们就有足够的理由怀疑零假设的真实性,并可能拒绝它。因此,我们并不是要求概率相同,而是要求概率足够低,以便我们可以有信心拒绝零假设。

这个例子主要在讨论如何使用费希尔确切检验(Fisher's exact test)来比较两组(女性和男性)在某种疾病上的发病率是否相同。这里的关键是使用条件概率分布来处理问题。我们知道,随机变量 X 和 Y 分别代表女性和男性患病的人数,都服从二项分布,且我们观察到的 X+Y=r,即总共有 r 人患病。

在费希尔确切检验中,我们要计算的是在给定 X+Y=r 的条件下,X 的概率分布。这个条件分布实际上是一个超几何分布,其参数为 n, m, 和 r。这种分布出现是因为我们在一个固定大小的群体中不放回地抽样。重要的一点是,尽管 X 和 Y 的分布可能依赖于未知的概率 p,但条件分布 P(X=x∣X+Y=r) 实际上与 p 无关,因为一旦确定了总共有 r 人患病,那么具体有多少女性患病的概率只取决于 n, m, 和 r,而与 p 无关。

通过计算 P(X=x∣X+Y=r),我们可以比较实际观察到的患病人数与在超几何假设下的患病人数,从而检验我们的零假设(即两组的发病率相同)如果实际观察到的患病人数与超几何分布预测的患病人数相差很大,那么我们可能会拒绝零假设,认为两组的发病率有显著差异。这就是费希尔确切检验的基本思想。

  • 43
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值