ABtest介绍，示例

最新推荐文章于 2024-04-17 17:46:09 发布

New Dataer

最新推荐文章于 2024-04-17 17:46:09 发布

阅读量1.3w

点赞数 7

分类专栏： Python 文章标签： python 数据分析

本文链接：https://blog.csdn.net/qq_40984307/article/details/108620259

版权

Python 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

1.A/B测试简介
在各个行业中，ABtest对于数据分析师来说都是一个不陌生的明细。那么ABtest到底是什么？其基础原理是怎样的？
在网站和APP的设计，产品的运营中，经常会面临多个设计/运营方案的选择，从界面颜色，界面功能按钮，不同的运营方案，都有不同的选择。ABtest可以帮助我们去做出选择，得出用户体验最佳的设计方案。
ABtest很类似于生物钟的控制变量法。将用户划分成不同的小组，在相同的时间维度上进行单一变量的改变，并通过最终展现出来的数据指标来衡量方案的好坏。当然因为用户群体较大，所以在分组时要注意各个用户群组的组成成分应该相似。

2.A/Btest测试前期准备：
一个完整的A/Btest主要包括如下几个部分：
前期准备：
分析现状，建立假设：分析业务中的问题，对问题提出假设，并提出优化建议
设定指标：指标就是用来衡量问题的一个优劣的量化数据。设置辅助指标来评估其他影响。
如何设计好一个ABtest：
1、确定对照组和实验组，最好是做单变量的实验，一次只改变一个变量。
2、分流时尽量排除混杂因素，一般情况下采用随机分流即可。
3、检查流量是否达到最小样本量要求，达不到要求则没法进行后续的分析，实验结果不可信。
4、确定本次实验的对比指标，就是如果方案之间存在差别需要通过什么来衡量？
5、准确收集用户行为数据，这就要求埋点必须正确。
6、分析指标的显著性，如果指标不显著则表示实验无效。
7、确定引起显著性的根本原因，排除混杂因素导致实验结果的显著性。
8、最终给出实验结论：有效 or 无效。
设计实验注意点：
测试时长不宜太短或太长，周期太短可能是有高频用户参与了调研，周期太长，会影响用户体验以及公司决策。
同时性：设计实验应在同一时间维度下进行。
唯一性：相同的用户不能纳入结算结果中
群组划分：用户群组的因素是多变，应选择一个特征量来进行划分。确保分组之后的群组是相近的。其中包括的特征，用户年龄，用户活跃程度，手机型号。APP版本信息等等。（可以使用霍金试验平台）

3.整体流程：
根据之前的业务分析，提出问题，建立假设
确定零假设（H0）和备择假设（H1）：
零假设：就是我们所提出的假设。例如我们是比较按钮颜色对用户登录率的假设，那么我们的零假设（H0）为：按钮颜色对用户登录率没有影响。反之备择假设（H1）为：按钮颜色对用户登录率有影响。
判断抽样分布类型
我们的样本分组（分流）。是否近似于正态分布。
确定样本统计量和测试时长
确定样本统计量：样本量不是我们通常认为的越多越好，
一般来说样本量越多越好，但是在某些现实的情况下样本量应该越少越好。例如有些公司的流量有限，如果保证不同试验的样本不重叠的情况下，产品开发速度很大大降低。还有大批量数据的试错成本很大，假设我们拿50%的数据去做试验，如果一周之后的结果显示实验组的总收入降低了10%，那公司直接损失了20%。试错成功有些大。
在这里插入图片描述
样本量计算：
我们的初始值为1.26%，我们需要的新的营销策略能让广告点击率至少提高1个百分点，
那么我们在网站https://www.evanmiller.org/ab-testing/sample-size.html
中baseline conversion rate 框中输入1.26 ，minimum detectable effect 框中输入 1 ，计算得出我们实验所需要的的最小样本量
测试时长，需要按照产品而定。
置信度和检测效能：
这两个概念需要我们了解一下A/Btest的基本知识。
ABtest的本质就是通过试验数据做出判断，H0到底正不正确。
那么就会出现下面的四种情况：
在这里插入图片描述

设备登陆率没有区别（H0）正确，试验分析结果表示是有区别的，我们把第一类错误出现的概率出现的概率用C表示，那么置信度=1-C。第一类错误就意味着新的产品对业务没有提升，我们却错误的认为是有提升的。这样会导致资源的滥用和产品的负向引导。所以在ABtest中我们希望第一类错误越低越好，实际操作中我们对C定了一个上限一般为5%。就是说要保证第一类错误出现概率不要超过5%
设备登录率有区别（H1正确），实验分析结果却说没区别：我们的判断又错了，这类错误叫做第二类错误（Type II error），用β表示。我们一般定义第二类错误β不超过20%。
情况2和情况3是两种判断正确的场景，我们把做出这类正确判断的概率叫做检测效能。我们的做实验的根本目的是为了检测出橙色按钮和蓝色按钮的设备登录率的差别。如果检测效能低，证明即使新产品真的有效果，实验也不能检测出来。换句话说，我们的实验无卵用。
根据条件概率的定义，检测效能 = 1 -β = 80%。对两类错误上限的选取（α是5%，β是20%）中我们可以了解到A/B实验的重要理念：宁肯砍掉4个好的产品，也不应该让1个不好的产品上线。
6.显著性检验
在这里插入图片描述