A/B测试-统计篇

最新推荐文章于 2025-03-22 07:21:21 发布

米勒111

最新推荐文章于 2025-03-22 07:21:21 发布

阅读量2k

点赞数

分类专栏：数据分析文章标签： python 数据分析

本文链接：https://blog.csdn.net/mixiaolemy/article/details/121656409

版权

数据分析专栏收录该内容

37 篇文章

订阅专栏

本文深入探讨A/B测试中的统计基础，包括指标的统计属性，如正态分布、二项分布和中心极限定理。解释了在样本量足够大时，均值类指标接近正态分布，概率类指标在特定条件下也可近似正态。同时，介绍了假设检验的概念，如零假设、备择假设、第一类错误和第二类错误，以及P值和置信区间的应用。文章强调了在A/B测试中选择合适的统计检验方法，如比例检验和T检验的重要性，并指出这些统计概念在样本量计算、指标波动性分析和测试结果评估中的关键作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一.A/B测试理论基础

1.指标的统计属性

指标的统计属性，指的是什么？

在实际业务中，我们常用的指标其实就是两类：

均值类的指标，比如用户的平均使用时长、平均购买金额、平均购买频率，等等。

概率类的指标，比如用户点击的概率（点击率）、转化的概率（转化率）、购买的概率（购买率），等等。

很明显，这些指标都是用来表征用户行为的。而用户的行为是非常随机的，这也就意味着这些指标是由一系列随机事件组成的变量，也就是统计学中的随机变量。我们可以用概率分布来表征随机变量取不同值的概率和范围。所以，A/B 测试指标的统计属性，其实就是要看这些指标到底服从什么概率分布。

在这里，我可以先告诉你结论：在数量足够大时，均值类指标服从正态分布；概率类指标本质上服从二项分布，但当数量足够大时，也服从正态分布。

1.1正态分布：

在统计上，如果一个随机变量 x 的概率密度函数（Probability Density Function）是：

那么，x 就服从正态分布。其中，μ为 x 的平均值（Mean），σ为 x 的标准差（Standard Deviation），n 为随机变量 x 的个数，xi 为第 i 个 x 的值。

随机变量 x 服从正态分布时的直方图（Histogram）如下：

直方图是表征随机变量分布的图表，其中横轴为 x 可能的取值，纵轴为每个值出现的概率。通过直方图你可以看到，距离平均值μ越近的值出现的概率越高。

除了平均值μ，你还能在直方图和概率密度函数中看到另一个非常重要的参数：标准差σ。σ通过计算每个随机变量的值和平均值μ的差值，来表征随机变量的离散程度（偏离平均值的程度）。

为了方便理解，我们用 Python 做一个简单的模拟，选取服从正态分布的随机变量 x，其平均值μ=0；分别把 x 的标准差σ设置为 1.0、2.0、3.0、4.0，然后分别做出直方图。

通过这个直方图去看标准差σ对随机变量分布的影响，是不是就更直观了？σ越大，x 偏离平均值μ的程度越大，x 的取值范围越广，波动性越大，直方图越向两边分散。

有了方差（方差就是标准差的平方，标准差σ和方差在表征离散程度上其实是可以互换的）和标准差，我们就可以描述业务指标的离散程度了，但要计算出业务指标的波动范围，我们还差一步。这一步就是 z 分数。

要解释 z 分数，就要引出一种特殊的正态分布，也就是标准正态分布（Standard Normal Distribution），其实就是平均值μ=0、标准差σ=1 的正态分布。

标准正态分布的直方图如下所示：

这里的横轴就是 z 分数（Z Score），也叫做标准分数（Standard Score）：

1.2 中心极限定理

这其实是均值类变量的特性：当样本量足够大时，均值类变量会趋近于正态分布。这背后的理论基础，就是中心极限定理。

那么，这个足够大的样本量到底是多大呢？

统计上约定俗成的是，样本量大于 30 就属于足够大了。在现在的大数据时代，我们的样本量一般都能轻松超过 30 这个阈值，所以均值类指标可以近似为正态分布。

1.3二项分布

定义：n个独立的是/非试验中成功的次数的离散概率分布

只有两种结果事件概率分布的

这里我们还是结合着社交 App 的例子，来学习下二元分布。

这款社交 App 在网上投放了广告，来吸引人们点击广告从而下载 App。

现在我们想通过数据看看 App 下载率的分布情况：下载率 = 通过广告下载 App 的用户数量 / 看到广告的用户数量。

因为单个二元事件的结果，只能是发生或者不发生，发生的概率要么是 100% 要么是 0%，所以我们要分析下载率就必须把数据进行一定程度的聚合。这里，我们就以分钟为单位来举例，先计算每分钟的下载率，再看它们的概率分布。

我们有一个月的用户及下载数据，一个月一共有 43200 分钟（60*24*30），因为我们关注的是每分钟的下载率，所以一共有 43200 个数据点。通过数据分析发现，每分钟平均有 10 个人会看到广告，下载率集中分布在 0-30% 之间。

下图是每分钟下载率的概率分布：

你可能会说，概率在某种程度上也是平均值，可以把这里的下载率理解为“看到广告的用户的平均下载量”，那我们已经有 43200 个数据点了，样本量远远大于 30，但为什么下载率的分布没有像中心极限定理说的那样趋近于正态分布呢？

这是因为在二项分布中，中心极限定理说的样本量，指的是计算概率的样本量。在社交 App 的例子中，概率的样本量是 10，因为平均每分钟有 10 人看到广告，还没有达到中心极限定理中说的 30 这个阈值。所以，我们现在要提高这个样本量，才能使下载率的分布趋近正态分布。

提高样本量的方法也很简单，可以计算每小时的下载率。因为每小时平均有 600 人看到广告，这样我们的样本量就从 10 提高到了 600。

下图是每小时下载率的概率分布：

现在再看这张直方图，每小时下载率的分布是不是就趋近于正态分布了！图中下载率的平均值大约为 10%。

在二项分布中，有一个从实践中总结出的经验公式：min(np,n(1-p)) >= 5。其中，n 为样本大小，p 为概率的平均值。这个公式的意思是说，np 或者 n(1-p) 中相对较小的一方大于等于 5，只有二项分布符合这个公式时，才可以近似于正态分布。这是中心极限定理在二项分布中的变体。

在我们的例子中，计算每分钟下载率的概率分布时，np=10*10%=1，小于 5，所以不能近似成正态分布；计算每小时下载率的概率分布时，np=600*10%=60，大于等于 5，所以可以近似成正态分布。