AB test 检验significance,使用bootstrap
bootstrap是通过随机排序,“模拟”出一个“总体”。但也要求随机排序的次数要比就大(例如10000次),操作起来较为麻烦
且t-test只适用于 平均数,如果你想求population的median,或者其他统计量,中心极限定理也不能用。由于以上两个问题,我们想到了bootstrapping方法。总体 100 个人,求median。假设样本有5个: 12 34 45 78 99,求median,45现在进行有放回抽样: 12 → 把12放回去→99 → 把99放回去→45 → 把45放回去→12 → 把12放回去→34 → 把34放回去第一个bootstrap sample已经出来了:12 99 45 12 34, 求median, 34这样操作10000遍。median会形成一个distribution。
#Creating an list with bootstrapped means for each AB-group
boot_1d = []
for i in range(500):
boot_mean = df.sample(frac=1,replace=True).groupby('version'</