AB test 学习1

本文介绍了AB测试中如何使用Bootstrap方法来检验显著性。Bootstrap通过随机排序模拟总体,解决了t-test仅适用于平均数的问题。文章通过实例解释了如何在100个人的总体中,对样本进行有放回抽样来求解中位数的分布,并讨论了在连续活动中享乐适应现象对数据分析的影响。
摘要由CSDN通过智能技术生成

AB test 检验significance,使用bootstrap
bootstrap是通过随机排序,“模拟”出一个“总体”。但也要求随机排序的次数要比就大(例如10000次),操作起来较为麻烦

且t-test只适用于 平均数,如果你想求population的median,或者其他统计量,中心极限定理也不能用。由于以上两个问题,我们想到了bootstrapping方法。总体 100 个人,求median。假设样本有5个: 12 34 45 78 99,求median,45现在进行有放回抽样: 12 → 把12放回去→99 → 把99放回去→45 → 把45放回去→12 → 把12放回去→34 → 把34放回去第一个bootstrap sample已经出来了:12 99 45 12 34, 求median, 34这样操作10000遍。median会形成一个distribution。

#Creating an list with bootstrapped means for each AB-group
boot_1d = []
for i in range(500):
    boot_mean = df.sample(frac=1,replace=True).groupby('version'</
AB测试(A/B testing)是一种常用的实验方法,用于比较两个或多个版本的产品或策略,以确定哪个版本能够更好地实现目标。在大数据处理中,AB测试通常涉及收集和分析大量的数据以评估不同版本的性能差异。 在处理AB测试的大数据时,以下是一些常见的步骤: 1. 数据收集:首先,需要收集与AB测试相关的数据。这可能包括用户行为数据、用户属性数据、实验组分配信息等。 2. 数据清洗和预处理:对收集到的数据进行清洗和预处理,确保数据的准确性和完整性。这可能包括去除异常值、处理缺失值等。 3. 数据分析:使用统计方法和机器学习技术对数据进行分析,以评估不同版本的性能差异。这可以包括计算指标(如转化率、点击率等)、构建模型等。 4. 假设检验:使用假设检验方法来判断不同版本之间是否存在显著差异。常见的假设检验方法包括t检验、置信区间等。 5. 结果解释:根据分析结果进行解释,并得出结论。这可能涉及到解释实验结果的统计学意义、推断用户行为等。 在处理大数据时,还需要考虑数据的规模和性能。可以使用分布式计算框架(如Hadoop、Spark等)来加速数据处理过程,并利用大数据技术(如分布式存储、并行计算等)来处理大规模的数据集。 总之,AB测试的大数据处理是一个复杂的过程,涉及数据收集、清洗、分析和结果解释等步骤。通过合理的数据处理和分析,可以帮助我们了解不同版本的性能差异,并做出相应的决策。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值