【Python实战因果推断】64_随机实验与统计知识6

最新推荐文章于 2024-07-30 20:17:06 发布

水木流年追梦

最新推荐文章于 2024-07-30 20:17:06 发布

阅读量484

点赞数 13

分类专栏：因果推断文章标签： python 开发语言神经网络深度学习人工智能

本文链接：https://blog.csdn.net/qq_32146369/article/details/139757122

版权

因果推断专栏收录该内容

146 篇文章 48 订阅

订阅专栏

Test Statistic

p-values

Power

Test Statistic

除了置信区间外，有时将拒绝零假设的想法以检验统计量的形式表达也很有用。这些统计量常常构建得使得更高的值指向对零假设的拒绝。最常用的检验统计量之一是t统计量。它可以通过归一化产生置信区间的分布来定义：

$t_\Delta=\frac{\mu_\Delta-H_0}{SE_\Delta}=\frac{(\mu_1-\mu_2)-H_0}{\sqrt{\sigma_1^2/n_1+\sigma_2^2/n_2}},$

这里 $H_0$ 是由你的零假设定义的值。

注意分子仅仅是观测到的平均差异与零假设之间的差值。如果零假设成立，这个分子的期望值应该是零： $E[\mu_{\Delta}-H_{0}]=0$ 。分母是标准误差，它将统计量标准化为单位方差。这确保了如果零假设为真， $t_{\Delta}$ 将遵循标准正态分布——N(0, 1)。既然在零假设下 $t_{\Delta}$ 围绕零中心分布，那么高于或低于1.96的值会极为罕见（出现少于95%的时间）。这意味着如果你观察到如此极端的t统计量，你也可以拒绝零假设。在我们的示例中，与零效果的 $H_0$ 相关的统计量大于2，意味着你可以在95%的置信水平下拒绝它：

 t_stat = (diff_mu - 0) / diff_se
 t_stat
 
 2.2379512318715364

此外，因为t统计量在零假设下服从正态分布，你可以轻松地使用它来计算p值。

p-values

之前我已经说过，如果收到无邮件和简短邮件的客户的转化率相同，观察到如此极端差异的可能性小于5%。但是你能精确估计这个可能性是多少吗？观察到如此极端值的可能性有多大？这就引出了p值的概念！

如同置信区间（实际上，大多数频数统计学概念亦是如此），p值的真实定义可能非常令人困惑。为了避免任何风险，我将引用维基百科上的定义：“p值是在假设零假设正确的情况下，获得至少与实际测试中观察到的结果一样极端的测试结果的概率。”

更简洁地说，p值是在零假设为真的情况下，观察到如此数据的概率（见图2-4）。它衡量的是在零假设为真的前提下，你正在观察的测量结果有多么不可能。自然而然地，这经常会被误解为零假设为真的概率。请注意其中的区别。p值不是P(H0|data)，而是P(data|H0)。

要得到p值，你所需要做的就是计算标准正态分布中，在单侧零假设（“差异大于x”或“差异小于x”）的检验统计量之前的面积，并对于双侧零假设（“差异等于x”），将结果乘以2：

 print("p-value:", (1 - stats.norm.cdf(t_stat))*2)
 
  P-value: 0.025224235562152142

p值之所以有趣，是因为它使你免去了指定置信水平的需要，如95%或99%。但是，如果你想报告一个置信水平，从p值中，你可以确切知道你的检验将在哪个置信水平上通过或失败。例如，具有0.025的p值，你的显著性可达2.5%的水平。因此，虽然差异的95%置信区间不会包含零，但99%的置信区间将会包含。这个p值也意味着，如果差异真正为零，观察到如此极端的检验统计量的概率只有2.5%。

Power

到目前为止，你从一个数据分析师的角度研究了这些统计概念，他被给予了一项现有测试的数据。你把数据视为已定的。但如果要求你设计一项实验而不是仅仅解读已经设计好的实验呢？在这种情况下，你需要决定每个变体的样本量。例如，如果你还没有运行交叉销售电子邮件实验，而是需要决定给多少客户发送长邮件，多少客户发送短邮件，以及完全不发邮件的数量是多少？

从这个角度来看，目标是拥有足够大的样本，以便在零假设实际上为假的情况下正确地拒绝它。测试正确拒绝零假设的概率被称为测试的效能(power)。这不仅是在确定实验所需的样本量时一个有用的概念，也是在检测运行不良的实验中的问题时的一个重要概念。

效能与统计显著性密切相关。虽然α是当零假设实际上是真时拒绝它的概率，但效能（1-β）是当零假设为假时拒绝它的概率。在某种程度上，效能也由α定义，因为为了正确地拒绝零假设，你需要指定你拒绝它所需要的证据量。

回想一下，95%的置信区间意味着95%的实验将包含你试图估计的真实参数。这也意味着5%的实验不会包含真实参数，这会导致你5%的时间错误地拒绝零假设。在α=0.05的情况下，你所需要的是参数估计和零假设之间的差异δ至少要离零1.96倍的标准误差(SE)远，才能得出它是统计上显著的结论。这是因为δ-1.96SE是95%置信区间的低端。

好的，所以你需要δ-1.96SE>0才能声称结果是显著的。但是，看到这种显著差异的可能性有多大呢？这就是你考虑效能的时候了。效能是正确拒绝零假设的概率，即1-β，其中β是在零假设为假时没有拒绝它的概率（假阴性的概率）。行业标准的效能是80%，这意味着你只有20%（β=0.2）的机会，在零假设确实为假时不拒绝它。为了达到80%的效能，你需要在零假设为假时80%的时间内拒绝它。既然拒绝零假设意味着δ-1.96SE>0，你就需要80%的时间内获得这么大的差异。换句话说，你需要80%的时间让95%置信区间的低端超过零。

值得注意（或不值得）的是，95%置信区间的低端也遵循正态分布。就像样本平均数的分布一样，95%CI低端的分布也有等于SE的方差，但现在均值是δ-1.96SE。它只是样本平均数分布的平移版，移动了1.96SE的距离。

因此，为了在80%的时间里（80%的效能）有δ-1.96SE>0，你需要差异至少离零1.96+0.84SE远：1.96是为了给你95%的置信区间，而0.84是为了让那个区间的低端80%的时间落在零以上。这里0.84是与标准正态分布的第80百分位点相对应的z值，确保了在零假设为假的情况下，你有80%的概率拒绝零假设。这在规划实验时非常重要，因为它帮助你确定为了实现所需效能水平所需的样本量。

水木流年追梦

关注

13
点赞
踩
17

收藏

觉得还不错? 一键收藏
打赏
0
评论
【Python实战因果推断】64_随机实验与统计知识6

但是，如果你想报告一个置信水平，从p值中，你可以确切知道你的检验将在哪个置信水平上通过或失败。例如，具有0.025的p值，你的显著性可达2.5%的水平。这个p值也意味着，如果差异真正为零，观察到如此极端的检验统计量的概率只有2.5%。为了避免任何风险，我将引用维基百科上的定义：“p值是在假设零假设正确的情况下，获得至少与实际测试中观察到的结果一样极端的测试结果的概率。之前我已经说过，如果收到无邮件和简短邮件的客户的转化率相同，观察到如此极端差异的可能性小于5%。观察到如此极端值的可能性有多大？
复制链接

扫一扫