深入解读A/B 测试的统计学原理

本文深入解析A/B测试的统计学原理,涵盖统计学基本概念、抽样、参数估计、假设检验等关键概念,强调了正确理解和应用统计学在A/B测试中的重要性。通过实例展示了如何利用统计学评估测试版本与对照版本的差异,并解释了如何计算显著性水平p值和置信区间,以确保试验结果的可靠性。
摘要由CSDN通过智能技术生成

了解一些统计学知识对正确地进行 A/B 测试和研判试验结果是很有帮助的,本篇文章深入介绍了A/B 测试的原理和背后的统计学依据。完全理解本文中提到的数学计算需要你掌握概率方面的一点基础知识。

统计学在 A/B 测试中的作用

A/B 测试是一种对比试验(下文中对比试验特指 AppAdhoc 平台上的 A/B 测试),而试验就是从总体中抽取一些样本进行数据统计,进而得出对总体参数的一个评估。可以看出,做试验并从试验数据中得出有效结论的科学基础是统计学。

统计学的基本概念

总体:是客观存在的、具有某一共同性质的许多个体组成的整体; 总体是我们的研究对象,在对比试验中,总体就是网站/App的所有用户。

样本:所谓样本就是按照一定的概率从总体中抽取并作为总体代表的一部分总体单位的集合体; 样本是我们的试验对象,在对比试验中缺省的对照版本和测试版本的用户都是样本。

参数:用来描述总体特征的概括性数字度量,称为参数,如总体平均数(μ);在对比试验中总体参数就是所有用户的某个优化指标的平均值。

统计量:用来描述样本特征的概括性数字度量,称为统计量,如样本平均数(x);在对比试验中统计量就是测试版本用户的某个优化指标的统计平均值。

均值:变量值的算数平均数。

方差:各变量值与其算术平均数离差平方的算术平均数。标准差是方差的平方根。

正态分布:是一种应用非常广泛的概率分布,它是下面介绍的假设检验等统计推断方法的数学理论基础。

统计学的基本概念

所以,对比试验的工作原理就是统计对照版本和测试版本两个样本的数据(样本数量,样本平均数和方差等),通过以正态分布为基础的统计学公式进行计算,衡量测试版本的总体参数(均值)是否比对照版本的总体参数有确定性的提升。

抽样

抽样是指按照随机原则,以一定概率从总体中抽取一定容量的单位作为样本进行调查,根据样本统计量对总体参数作出具有一定可靠程度的估计与推断。

抽样最重要的问题是抽取的样本是否能够代表总体。如果样本没有代表性,那么以样本的统计量数据来对总体参数进行估计就没有逻辑基础。

AppAdhoc 试验引擎的用户流量分割算法根据用户特征对用户进行聚类,把用户分为具有相同代表性的多个小组,然后通过随机抽样的方式得到测试版本的用户群(样本),保证了样本的代表性。

参数估计

参数估计是一种统计推断方法,用样本统计量去估计总体参数。 总体的统计指标在一定范围内以一定的概率取各种数值,从而形成一个概率分布,但是这个概率分布可能是未知的。 当总体分布类型已知(通常是正态分布),仅需对分布的未知参数进行估计的问题称为参数估计。

用来估计总体参数的统计量的名称称为估计量,如样本均值;估计量的具体数值称为估计值。参数估计方法有点估计与区间估计两种方法。

用样本估计量的值直接作为总体参数的估计值称为点估计。例如在对比试验中,缺省对照版本的优化指标均值就是对缺省版本总体的优化指标均值的一个点估计。

我们必须认识到

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值