【Python实战因果推断】64_随机实验与统计知识6

目录

Test Statistic

p-values

Power


Test Statistic

除了置信区间外,有时将拒绝零假设的想法以检验统计量的形式表达也很有用。这些统计量常常构建得使得更高的值指向对零假设的拒绝。最常用的检验统计量之一是t统计量。它可以通过归一化产生置信区间的分布来定义:

t_\Delta=\frac{\mu_\Delta-H_0}{SE_\Delta}=\frac{(\mu_1-\mu_2)-H_0}{\sqrt{\sigma_1^2/n_1+\sigma_2^2/n_2}},

这里 H_0​ 是由你的零假设定义的值。

注意分子仅仅是观测到的平均差异与零假设之间的差值。如果零假设成立,这个分子的期望值应该是零:E[\mu_{\Delta}-H_{0}]=0。分母是标准误差,它将统计量标准化为单位方差。这确保了如果零假设为真,t_{\Delta}​ 将遵循标准正态分布——N(0, 1)。既然在零假设下 t_{\Delta}​ 围绕零中心分布,那么高于或低于1.96的值会极为罕见(出现少于95%的时间)。这意味着如果你观察到如此极端的t统计量,你也可以拒绝零假设。在我们的示例中,与零效果的 H_0​ 相关的统计量大于2,意味着你可以在95%的置信水平下拒绝它:

 t_stat = (diff_mu - 0) / diff_se
 t_stat
 
 2.2379512318715364

此外,因为t统计量在零假设下服从正态分布,你可以轻松地使用它来计算p值。

p-values

之前我已经说过,如果收到无邮件和简短邮件的客户的转化率相同,观察到如此极端差异的可能性小于5%。但是你能精确估计这个可能性是多少吗?观察到如此极端值的可能性有多大?这就引出了p值的概念!

如同置信区间(实际上,大多数频数统计学概念亦是如此),p值的真实定义可能非常令人困惑。为了避免任何风险,我将引用维基百科上的定义:“p值是在假设零假设正确的情况下,获得至少与实际测试中观察到的结果一样极端的测试结果的概率。”

更简洁地说,p值是在零假设为真的情况下,观察到如此数据的概率(见图2-4)。它衡量的是在零假设为真的前提下,你正在观察的测量结果有多么不可能。自然而然地,这经常会被误解为零假设为真的概率。请注意其中的区别。p值不是P(H0|data),而是P(data|H0)。

要得到p值,你所需要做的就是计算标准正态分布中,在单侧零假设(“差异大于x”或“差异小于x”)的检验统计量之前的面积,并对于双侧零假设(“差异等于x”),将结果乘以2:

 print("p-value:", (1 - stats.norm.cdf(t_stat))*2)
 
  P-value: 0.025224235562152142

p值之所以有趣,是因为它使你免去了指定置信水平的需要,如95%或99%。但是,如果你想报告一个置信水平,从p值中,你可以确切知道你的检验将在哪个置信水平上通过或失败。例如,具有0.025的p值,你的显著性可达2.5%的水平。因此,虽然差异的95%置信区间不会包含零,但99%的置信区间将会包含。这个p值也意味着,如果差异真正为零,观察到如此极端的检验统计量的概率只有2.5%。

Power

到目前为止,你从一个数据分析师的角度研究了这些统计概念,他被给予了一项现有测试的数据。你把数据视为已定的。但如果要求你设计一项实验而不是仅仅解读已经设计好的实验呢?在这种情况下,你需要决定每个变体的样本量。例如,如果你还没有运行交叉销售电子邮件实验,而是需要决定给多少客户发送长邮件,多少客户发送短邮件,以及完全不发邮件的数量是多少?

从这个角度来看,目标是拥有足够大的样本,以便在零假设实际上为假的情况下正确地拒绝它。测试正确拒绝零假设的概率被称为测试的效能(power)。这不仅是在确定实验所需的样本量时一个有用的概念,也是在检测运行不良的实验中的问题时的一个重要概念。

效能与统计显著性密切相关。虽然α是当零假设实际上是真时拒绝它的概率,但效能(1-β)是当零假设为假时拒绝它的概率。在某种程度上,效能也由α定义,因为为了正确地拒绝零假设,你需要指定你拒绝它所需要的证据量。

回想一下,95%的置信区间意味着95%的实验将包含你试图估计的真实参数。这也意味着5%的实验不会包含真实参数,这会导致你5%的时间错误地拒绝零假设。在α=0.05的情况下,你所需要的是参数估计和零假设之间的差异δ至少要离零1.96倍的标准误差(SE)远,才能得出它是统计上显著的结论。这是因为δ-1.96SE是95%置信区间的低端。

好的,所以你需要δ-1.96SE>0才能声称结果是显著的。但是,看到这种显著差异的可能性有多大呢?这就是你考虑效能的时候了。效能是正确拒绝零假设的概率,即1-β,其中β是在零假设为假时没有拒绝它的概率(假阴性的概率)。行业标准的效能是80%,这意味着你只有20%(β=0.2)的机会,在零假设确实为假时不拒绝它。为了达到80%的效能,你需要在零假设为假时80%的时间内拒绝它。既然拒绝零假设意味着δ-1.96SE>0,你就需要80%的时间内获得这么大的差异。换句话说,你需要80%的时间让95%置信区间的低端超过零。

值得注意(或不值得)的是,95%置信区间的低端也遵循正态分布。就像样本平均数的分布一样,95%CI低端的分布也有等于SE的方差,但现在均值是δ-1.96SE。它只是样本平均数分布的平移版,移动了1.96SE的距离。

因此,为了在80%的时间里(80%的效能)有δ-1.96SE>0,你需要差异至少离零1.96+0.84SE远:1.96是为了给你95%的置信区间,而0.84是为了让那个区间的低端80%的时间落在零以上。这里0.84是与标准正态分布的第80百分位点相对应的z值,确保了在零假设为假的情况下,你有80%的概率拒绝零假设。这在规划实验时非常重要,因为它帮助你确定为了实现所需效能水平所需的样本量。

  • 13
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

水木流年追梦

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值