产品经理可能需要了解的第4个技术知识点:你会玩A/B测试嘛?
1. A/B测试简介
2. A/B测试应用场景
3. A/B测试的实施步骤
一、A/B测试简介
现在互联网产品竞争越来越激烈,为了抢占先机,很多产品可能按照周甚至按照天来迭代。通常不管是产品迭代方向,还是决策的制定,都需要有数据来说话,有理有据。
A/B测试的本质是分离式组间试验,也叫对照试验,一开始在科研领域中广泛的被应用,自2000年谷歌将这一方法应用在互联网产品以来,A/B测试在国外越来越普及,已成为精细化产品运营的重要体现。
但是大部分产品迭代方式,是将优化好的版本直接发布给用户,一旦遇到bug或者数据表现不好,就急急忙忙的紧急修复,有的甚至滚回发版前的那一版本。这种操作对内(公司内部)、对外(用户)都会产生不可预估的影响和损失,多少人还记得某宝325事件,有兴趣的伙伴自行查询了解。
在产品设过程中存在多个方案时,比如按钮是放在上面好,还是下面好,那该如何决策呢?这时候就要用到A/B测试了。
简单的来说,A/B测试就是为了同一目标制定两个两个版本,这两个版本只有某些地方不一样,其他功能保持一致。例如:两个版本只有按钮颜色不一样,这时候将用户流量分成两组,一部分用户使用A版本(也就是实验组),另一部分用户使用B版本(也就是对照组)。
等到运营一段时间后,分别统计两组用户的数据表现,然后对比两组数据进行对比分析,最后选择效果最好的方案投入“生产”。
二、A/B测试应用场景
上面简单的介绍A/B测试是什么,现在一起看看它在日常工作中体现在哪些场景。
(1) UI的优化
这是比较容易忽视的场景。我们经常说专业人做专业事,通常设计稿都有UI部门主导,其余部门只是配合建议,然后他们酌情修改。
不像功能的设计,存在着很多理性的逻辑,逻辑可以确定哪种方案好,哪种方案不好。UI的优化现实情况,经常是你说你有理,他说有理,更多的是基于自己的审美感。
例子:某平台免费领取按钮转化率实验
原始版本和优化版本的唯一区别是按钮的颜色(按钮背景颜色和文字颜色),这个改变10分钟就可以完成,但是转化率立刻提高36.98%。
(2) 文案变化
这种场景与UI变化的场景差不多,更多的是基于自己的判断。
例子:某平台注册按钮文字的测试
在某平台的首页上,有一个注册的按钮。为了能够提高访客的注册率,运营团队决定采用A/B测试的方法对按钮的说明文字进行测试。在这次试验中,他们设计了两个版本的说明文字,一个是“注册”而另一个是“免费试用”。本次试验使用了全部的流量,两个版本各50%,一共进行了10天。
试验的结果表明,文字为“免费试用”的版本要比另一个版本的注册率要高出98%!观察统计显著性指标,我们可以看到在经历了初期的波动之后,数据开始趋于稳定并最终一直保持在99%以上。
这说明了试验结果是完全可信的。我们应该采用“免费试用”的说明文字,这个方案具有更高的流量转化效率,能够带来了更多的收益。
(3) 页面布局
主要指的是同页面中的不同元素的布局排列方式。
例子:某电商网站注册功能布局
团队安排了为期30天的A/B测试,为两个测试版本分配了均等的流量,即各占50%,结果注册模块布局在左侧胜出,提交表单设计在页面的左侧的提交率相对右侧提高了30.8%。
(4) 算法优化
根据用户的历史记录推荐相似内容,还是根据相似兴趣用户的行为推荐相关内容,又或是根据内容本身的相关性给用户推荐?
例子:某资讯应用推荐算法实验
这次测试在后台系统中部署了三种推荐算法,当业务系统想要去获取推荐内容的时候,会依据engine_name的值去调用对应的推荐算法程序接口来获得推荐内容,最后返回给用户。当用户点击这些推荐的内容时,就认为完成转化。本次实验一共进行了一周的时间,抽取了3%的全网流量。
结果表明,最好的推荐算法比最差的推荐算法点击率要高出55%。统计显著性指标的结果也超过了95%,试验可以认定为有效。最终,该资讯应用在全网都采用了最佳的推荐算法。
(以上涉及到的例子均来自:云眼网站-https://www.eyeofcloud.com)
三、A/B 测试的实施步骤
A/B 测试核心的思想是多个方案并行测试,每个方案有一个或者多个变量,最后分析结果优胜劣汰。那一起看看如何操作A/B 测试:
(1) 分析现状
为什么要做A/B 测试?比如通过当前数据分析发现注册率、转化率非常低,并在转化路径中找到问题,尝试优化。
(2) 确立优化目标
建议大家要确立可量化的、可以落实到某一个具体功能点的、可实施的小目标,比如通过按钮的UI优化,将转化率提升15%,如果目标设置的太大太宽泛,可能就不好落地。
(3) 衡量指标
用来描述实验结果的指标,如下单转化率 = 下单人数 / 浏览人数,或者跳出率等等。
(4) 制定方案
基于原始版本制定多个优化方案,最后进行方案结果对比。如改变按钮位置或颜色将使其更加突出,提高转化率。
(5) 样本数量
选取多少的样本对实验的结果至关重要,不能跟着感觉走,选一个差不多的数量,比如几千几万。
样本量越大,影响面也就越大。对于一些探索性的实验来说,可能有一些负面影响。如果让全部用户都接触到,显然是不恰当的。
选择恰当数量的样本量,要根据实验而定,那么我们该如何确定所需的样本量呢?下面提供一个计算样本数量的小工具:
在上述工具中,输入原始版本的转化率、优化版本的转化率和统计显著性,即可计算出所需样本的数量大小,省时省力。
计算出样本数量后,再根据网站或App每天的访问数,即可计算出试验所需的时间,公式如下。
试验所需的时间 = 所需样本数量大小 / 每天访问数
(6) 测试方案:这里介绍用户终端如何对接某一第三方A/B 测试平台,首先根据不同终端(Web、Android、IOS等)安装对应的SDK,然后设置编辑编辑方案、目标、业务URL,分配流量等一系列操作。
下图就是该平台《用户使用手册PDF》,感兴趣的小伙伴,或需要文中提到的小工具,均可留言回复【test】获取,不是文末留言哦。
(7) 收集数据
如果是使用第三方平台SDK的话,将会自动收集之前设置好的衡量指标,否则只能通过手动埋点去获取。
(8) 分析结果
对于一个A/B测试来说,结果主要分成两种:有效和无效。无效的A/B测试实验对于团队来说,其实是非常宝贵的经验,避免以后再犯同样的错误。
而对于有效的A/B测试来说,我们成功通过实验提升了产品的转化率,这时我们可以把优胜的版本正式推送给全部用户,以实现产品用户的有效增长。
有效或者无效可依据统计显著性指标,一般来说,统计显著性要大于95%才认为A/B测试结束,但是,统计显著性达到95%有时需要很长的测试周期,考虑到机会成本,比如为了尽快推出新特性抢占市场先机,统计显著性达到90%也是可以接受的,但需要知道这是有一定风险的。
(具体了解统计显著性:https://www.eyeofcloud.com/175.html)
当然很多小伙伴可能看了文章后,对统计显著性还是不了解,太过于复杂难懂,下面介绍一款工具。
小工具主要功能:根据A、B版本的访问数和转化数,计算出转化率和统计显著性数值,并给出可信度结论。
统计显著性数值:≥95%:优化版本和原始版本之间有显著的统计差异,转化率的“改进”是可信的;
统计显著性数值:90%~95%:优化版本和原始版本之间的统计差异存有疑问,转化率的“改进”是存有疑问的;
统计显著性数值:<90%:优化版本和原始版本之间没有显著的统计差异,转化率的“改进”是不可信的。
关于A/B测试,先分享这些,欢迎各位小伙伴查缺补漏,每天学废一个小技术知识点,和技术打成一片~
如果你喜欢这篇文章,欢迎关注上面的公众号
最后,我建立了各大城市的产品交流群,想进群小伙伴加微信:yw5201a1 我拉你进群。
关注微信公众号:产品刘 可领取大礼包一份。
··················END··················
今日研报:阿里巴巴达摩院发布《2022十大科技趋势》,公众号后台回复“ 科技趋势”,即可下载完整PDF文件。
申明:报告版权归 阿里巴巴达摩院 独家所有,此处仅限分享学习使用,如有侵权,请联系小编做删除处理。
RECOMMEND
推荐阅读
点击“阅读原文”
查看更多干货