如何做一次完美的ABTest？

最新推荐文章于 2024-08-17 20:34:58 发布

若石之上

最新推荐文章于 2024-08-17 20:34:58 发布

阅读量4k

点赞数 1

分类专栏：其他

本文链接：https://blog.csdn.net/duzm200542901104/article/details/104632432

版权

其他专栏收录该内容

14 篇文章 0 订阅

订阅专栏

引言：

在互联网公司的业务发展过程中，用户增长是永恒的主题，因为没有增长也就没有发展，所以在业务发展的早期产品迭代速度往往是越快越好，总之一句话：“怎么快怎么来”，而当业务发展到一定阶段后，野蛮生长的红利逐渐消退，用户增长空间在可见策略下变得不那么明显的情况下，如何合理地规划产品迭代策略就显得尤为重要了，而具体如何判断产品策略是否有效，往往就需要数据说话，其结果决定了该产品或策略的生命力以及与之配套的各类资源的调配，毕竟我们都不会将资源浪费在无效的产品和策略上。那么通过什么样的工具或手段才能确保数据驱动策略的有效落地和实施呢？很多公司都是通过ABTest及建设与之相适配的实验基础设施平台来实现这样的目标。

ABTest通常是比较产品的某一个变量在不同的版本里面设置不同的值带来的作用以及影响（比如一个页面用红色的按钮、另一个用蓝色的按钮），其中版本A是当前正在使用的版本，而版本B是改进版。在进行实验时一般是比较实验组和对照组在某些指标上是否存在差异，当然更多时候是看实验组相比对照组某个指标表现是否更好。这样的对比在统计学上叫做两样本假设检验，即实验组和对照组为两样本，假设检验的原假设H0：实验组和对照组无显著差异；备择假设H1：实验组和对照组存在显著差异。更多时候我们关注的比例类的数值，如点击率、转化率、留存率等。这类比例类数值的特点是，对于某一个用户（样本中的每一个样本点）其结果只有两种，“成功”或“未成功”；对于整体来说，其数值为结果是“成功”的用户数所占比例。如转化率，对于某个用户只有成功转化或未成功转化。比例类数值的假设检验在统计学中叫做两样本比例假设检验。

下面我们以设备登录率实验来进行讲解。

一、实验前准备

1、做实验之前，我们先来回答下面几个问题：

1.1、你进行实验是想证明什么？

答：我想通过改变设备登录按钮的颜色来提高设备登录率

1.2、你的对照组和实验组将是什么样子？

答：对照组就是目前的样子，请看下图，登录的按钮是蓝色的背景，实验组我想把登录的按钮背景改成橙色，从而看看设备登录率是否有提升【完美第一步】

3、如何避免混杂因素？【完美第二步】

（混杂因素就是研究对象的个体差异，它们不是你试图进行比较的因素，但却最终导致分析结果的敏感度变差，比如不同城市的人，不同年龄段的人，性别……，进行实验的时候要尽量避免混杂因素对结果的影响）

答：你这里问的就是我们在做实验的时候，如何确定对照组和实验组的样本吧，就是要使实验组和对照组的样本个体差异尽量相同。从请求的用户中随机选择来避免混杂因素的极好办法：因为可能成为混杂因素的那些因素最终在对照组和实验组中具有同票同权

2、样本量

做A/B实验需要多少样本？这是我们在做实验的时候都必须要回答的问题。（其实对于互联网的应用来说，流量都非常大，样本量很少是实验中需要考虑的因素，不过这里我们还是要讲一讲，因为还涉及到一些其他的概念，我们也需要了解了解）

1、为何要计算样本量？

理论上，样本量越多越好：

从直观上看，当样本数量很少的时候，实验容易被新的样本点带偏，造成了实验结果不稳定，难以得出确信的结论。相反的，样本数量变多，实验则有了更多的“证据”，实验的“可靠性”也就越强。

在现实操作中，样本量应该越少越好，这是因为：

1）、流量有限：大公司因为用户数量足够多，不用过于精打细算，同时跑几十个甚至上百个实验也没问题。但小公司一共就那么点流量，还要开发这么多新产品。在保证不同实验的样本不重叠的情况下，产品开发的速度会大大降低。

2）、试错成本大：假设我们拿50%用的户来跑实验，但不幸的是，一周后结果表明实验组的总收入下降了20%。算下来，你的实验在一周内给整个公司带来了10%的损失。这个试错成本未免高了一些。

2、置信度和检测效能

要搞清这两个概念，我们了解一下A/B实验的基本知识。

首先，A/B测试的两个假设：

原假设（Null hypothesis, 也叫H0）：我们希望通过实验结果推翻的假设。在我们的例子里面，原假设可以表述为“橙色按钮和蓝色按钮的设备登录率一样”。
备择假设（Alternative hypothesis, 也叫H1）：我们希望通过实验结果验证的假设。在我们的例子里面，可以表述为“橙色按钮和蓝色按钮的设备登录率不一样”。

A/B测试的本质，就是通过实验数据做出判断：H0到底正不正确？那么就会出现下面四种情况：