目录
Sample Size Calculation
另一种看待这个问题的方式是认识到δ——零假设和观察到的估计值之间的差异——如果零假设为假,那么这个差异必须是可检测的。在α=5%和1-β=80%的情况下,可检测的效果由2.8SE = 1.96SE + 0.84SE 给出。因此,如果你想设计一个交叉销售电子邮件实验,在其中你想检测出1%的差异,你必须有一个样本量,使得至少1%=2.8SE。如果你打开SE(标准误差)的差异公式,你会得到。但请记住,你现在是从一个尚未看到实验结果,而是正在尝试设计实验的分析师的角度出发。在这种情况下,你没有处理组的标准误差,但你可以假设处理组和对照组的方差相同,因此
。把这个代入可检测的差异中,你最终会得到一个相当简单的公式,用于确定测试中每个变体的样本量,如果你想达到80%的效能和95%的显著性水平:
δ是可检测的差异,这里我将2*2.8^2四舍五入以保持保守。将这个公式应用于你的数据,使用对照组的方差作为σ^2的最佳猜测,你最终会得到所需的样本量。
np.ceil(16 * no_email.std()**2/0.01)
66.0
data.groupby("cross_sell_email").size()
cross_sell_email
long 109
no_email 94
short 120
dtype: int64
当然,这对于实验设计是无价的,但对当前我们正在进行的交叉销售实验来说也是个好消息。在这个实验中,我们两个处理组都有超过100个样本,对照组有94个样本,这表明我们的测试是适当功率化的。
总结
将因果识别与估计联系起来(同时也回顾了一些重要的统计概念)。回想一下,因果推断的目标是从数据中学习因果关系量。这一过程的第一步是识别,你使用关键假设从不可观测的因果量转换为可以从数据中估计的可观测统计量。
例如,平均处理效应(ATE)是一个因果量;它由不可观测的潜在结果定义,即ATE = E[Y1 - Y0]。为了识别ATE,你利用独立性假设,T ⊥ Y0,Y1,这使你能够将其写成可观测的数量,即E[Y|T=1]和E[Y|T=0]。也就是说,在独立性假设下:
你也看到了如何使用随机对照试验(RCTs)来使这一假设更加可信。如果你随机分配处理,你实际上是在强行使其与潜在结果Yt独立。
但是,识别只是因果推断的第一步。一旦你能够将因果量写成统计量的形式,你仍然需要估计这些统计量。例如,即使你可以将ATE写成E[Y|T=1]和E[Y|T=0]的形式,你仍然需要去估计它们。
第二部分涵盖了在这一估计过程中使用的统计概念。具体而言,你了解了标准误差: 以及如何使用它围绕估计值μ构建置信区间:
其中z是在正态分布中位于α%质量之间的值。
你还学会了如何构造两组平均数之差的置信区间,这归结为对这两组的方差求和,并找到差值的标准误差:
最后,你学到了关于效能(power)的知识,以及它如何被用来计算你想要运行的实验的样本量。特别地,对于95%的置信度和80%的效能,你可以简化样本量公式为:
其中是结果的方差,而δ是可检测的差异。