ABtest介绍,示例

1.A/B测试简介
在各个行业中,ABtest对于数据分析师来说都是一个不陌生的明细。那么ABtest到底是什么?其基础原理是怎样的?
在网站和APP的设计,产品的运营中,经常会面临多个设计/运营方案的选择,从界面颜色,界面功能按钮,不同的运营方案,都有不同的选择。ABtest可以帮助我们去做出选择,得出用户体验最佳的设计方案。
ABtest很类似于生物钟的控制变量法。将用户划分成不同的小组,在相同的时间维度上进行单一变量的改变,并通过最终展现出来的数据指标来衡量方案的好坏。当然因为用户群体较大,所以在分组时要注意各个用户群组的组成成分应该相似。

2.A/Btest测试前期准备:
一个完整的A/Btest主要包括如下几个部分:
前期准备:
分析现状,建立假设:分析业务中的问题,对问题提出假设,并提出优化建议
设定指标:指标就是用来衡量问题的一个优劣的量化数据。设置辅助指标来评估其他影响。
如何设计好一个ABtest:
1、确定对照组和实验组,最好是做单变量的实验,一次只改变一个变量。
2、分流时尽量排除混杂因素,一般情况下采用随机分流即可。
3、检查流量是否达到最小样本量要求,达不到要求则没法进行后续的分析,实验结果不可信。
4、确定本次实验的对比指标,就是如果方案之间存在差别需要通过什么来衡量?
5、准确收集用户行为数据,这就要求埋点必须正确。
6、分析指标的显著性,如果指标不显著则表示实验无效。
7、确定引起显著性的根本原因,排除混杂因素导致实验结果的显著性。
8、最终给出实验结论:有效 or 无效。
设计实验注意点:
测试时长不宜太短或太长,周期太短可能是有高频用户参与了调研,周期太长,会影响用户体验以及公司决策。
同时性:设计实验应在同一时间维度下进行。
唯一性:相同的用户不能纳入结算结果中
群组划分:用户群组的因素是多变,应选择一个特征量来进行划分。确保分组之后的群组是相近的。其中包括的特征,用户年龄,用户活跃程度,手机型号。APP版本信息等等。(可以使用霍金试验平台)

3.整体流程:
根据之前的业务分析,提出问题,建立假设
确定零假设(H0)和备择假设(H1):
零假设:就是我们所提出的假设。例如我们是比较按钮颜色对用户登录率的假设,那么我们的零假设(H0)为:按钮颜色对用户登录率没有影响。反之备择假设(H1)为:按钮颜色对用户登录率有影响。
判断抽样分布类型
我们的样本分组(分流)。是否近似于正态分布。
确定样本统计量和测试时长
确定样本统计量:样本量不是我们通常认为的越多越好,
一般来说样本量越多越好,但是在某些现实的情况下样本量应该越少越好。例如有些公司的流量有限,如果保证不同试验的样本不重叠的情况下,产品开发速度很大大降低。还有大批量数据的试错成本很大,假设我们拿50%的数据去做试验,如果一周之后的结果显示实验组的总收入降低了10%,那公司直接损失了20%。试错成功有些大。
在这里插入图片描述
样本量计算:
我们的初始值为1.26%,我们需要的新的营销策略能让广告点击率至少提高1个百分点,
那么我们在网站https://www.evanmiller.org/ab-testing/sample-size.html
中baseline conversion rate 框中输入1.26 ,minimum detectable effect 框中输入 1 ,计算得出我们实验所需要的的最小样本量
测试时长,需要按照产品而定。
置信度和检测效能:
这两个概念需要我们了解一下A/Btest的基本知识。
ABtest的本质就是通过试验数据做出判断,H0到底正不正确。
那么就会出现下面的四种情况:
在这里插入图片描述

设备登陆率没有区别(H0)正确,试验分析结果表示是有区别的,我们把第一类错误出现的概率出现的概率用C表示,那么置信度=1-C。第一类错误就意味着新的产品对业务没有提升,我们却错误的认为是有提升的。这样会导致资源的滥用和产品的负向引导。所以 在ABtest中我们希望第一类错误越低越好,实际操作中我们对C定了一个上限一般为5%。就是说要保证第一类错误出现概率不要超过5%
设备登录率有区别(H1正确),实验分析结果却说没区别:我们的判断又错了,这类错误叫做第二类错误(Type II error),用β表示。我们一般定义第二类错误β不超过20%。
情况2和情况3是两种判断正确的场景,我们把做出这类正确判断的概率叫做检测效能。我们的做实验的根本目的是为了检测出橙色按钮和蓝色按钮的设备登录率的差别。如果检测效能低,证明即使新产品真的有效果,实验也不能检测出来。换句话说,我们的实验无卵用。
根据条件概率的定义,检测效能 = 1 -β = 80%。对两类错误上限的选取(α是5%,β是20%)中我们可以了解到A/B实验的重要理念:宁肯砍掉4个好的产品,也不应该让1个不好的产品上线。
6.显著性检验
在这里插入图片描述
在这里插入图片描述

实操示例代码:https://github.com/xzy-lw

  • 7
    点赞
  • 60
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
ABTest流量分发是指在进行AB测试时,将流量按照一定的规则进行分配的过程。AB测试是一种通过对比两个或多个不同版本的产品或页面,来确定哪个版本对用户更有效的方法。在AB测试中,为了确保结果的准确性和可靠性,我们需要将流量分发到不同的实验组和对照组中。 根据引用提到的水平切分方式,我们可以将流量按照一定比例分发给召回组和精排组。比如将总流量的50%分给召回组,剩下的50%流量分给精排组。这样可以在不同的实验组中进行试验,并观察试验效果。 当某个试验的指标为正向时,我们可以推广这个试验到全流量中,然后继续在该部分流量上进行其他试验。这种方式可以直观地看到定向组合流量下的试验效果,但流量利用程度可能不够高。 因此,在AB测试中,我们需要根据实际情况灵活地选择适合的流量分发方式,以提高流量的利用程度。同时,还可以参考引用提到的相关文章和论文,深入了解AB测试的流量分层分桶机制和其他技术服务,以优化AB测试的流量分发。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [ABTest流量分发和业界的一些经验](https://blog.csdn.net/Gamer_gyt/article/details/115673209)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值