再好的产品经理跑不过一半的A/B测试

最新推荐文章于 2024-09-16 12:36:03 发布

「已注销」

最新推荐文章于 2024-09-16 12:36:03 发布

阅读量203

点赞数

文章标签：算法大数据编程语言 python 机器学习

原文链接：https://mp.weixin.qq.com/s?__biz=MzAxNjMyMDUzMQ==&mid=2247527668&idx=2&sn=e2cc99c9713a11fb5d6bad4efbacebe9&chksm=9bf4bd88ac83349e5cd73c4f16838fe92090f556b02b9770180f28efa2cdc0627eab5fdb73aa&scene=126&&sessionid=0

版权

产品经理可能需要了解的第4个技术知识点：你会玩A/B测试嘛？

1. A/B测试简介

2. A/B测试应用场景

3. A/B测试的实施步骤

一、A/B测试简介

现在互联网产品竞争越来越激烈，为了抢占先机，很多产品可能按照周甚至按照天来迭代。通常不管是产品迭代方向，还是决策的制定，都需要有数据来说话，有理有据。

A/B测试的本质是分离式组间试验，也叫对照试验，一开始在科研领域中广泛的被应用，自2000年谷歌将这一方法应用在互联网产品以来，A/B测试在国外越来越普及，已成为精细化产品运营的重要体现。

但是大部分产品迭代方式，是将优化好的版本直接发布给用户，一旦遇到bug或者数据表现不好，就急急忙忙的紧急修复，有的甚至滚回发版前的那一版本。这种操作对内(公司内部)、对外(用户)都会产生不可预估的影响和损失，多少人还记得某宝325事件，有兴趣的伙伴自行查询了解。

在产品设过程中存在多个方案时，比如按钮是放在上面好，还是下面好，那该如何决策呢？这时候就要用到A/B测试了。

简单的来说，A/B测试就是为了同一目标制定两个两个版本，这两个版本只有某些地方不一样，其他功能保持一致。例如：两个版本只有按钮颜色不一样，这时候将用户流量分成两组，一部分用户使用A版本(也就是实验组)，另一部分用户使用B版本(也就是对照组)。

等到运营一段时间后，分别统计两组用户的数据表现，然后对比两组数据进行对比分析，最后选择效果最好的方案投入“生产”。

二、A/B测试应用场景

上面简单的介绍A/B测试是什么，现在一起看看它在日常工作中体现在哪些场景。

(1) UI的优化

这是比较容易忽视的场景。我们经常说专业人做专业事，通常设计稿都有UI部门主导，其余部门只是配合建议，然后他们酌情修改。

不像功能的设计，存在着很多理性的逻辑，逻辑可以确定哪种方案好，哪种方案不好。UI的优化现实情况，经常是你说你有理，他说有理，更多的是基于自己的审美感。

例子：某平台免费领取按钮转化率实验

原始版本和优化版本的唯一区别是按钮的颜色（按钮背景颜色和文字颜色），这个改变10分钟就可以完成，但是转化率立刻提高36.98%。

(2) 文案变化

这种场景与UI变化的场景差不多，更多的是基于自己的判断。

例子：某平台注册按钮文字的测试

在某平台的首页上，有一个注册的按钮。为了能够提高访客的注册率，运营团队决定采用A/B测试的方法对按钮的说明文字进行测试。在这次试验中，他们设计了两个版本的说明文字，一个是“注册”而另一个是“免费试用”。本次试验使用了全部的流量，两个版本各50%，一共进行了10天。

试验的结果表明，文字为“免费试用”的版本要比另一个版本的注册率要高出98%！观察统计显著性指标，我们可以看到在经历了初期的波动之后，数据开始趋于稳定并最终一直保持在99%以上。

这说明了试验结果是完全可信的。我们应该采用“免费试用”的说明文字，这个方案具有更高的流量转化效率，能够带来了更多的收益。

(3) 页面布局

主要指的是同页面中的不同元素的布局排列方式。

例子：某电商网站注册功能布局

团队安排了为期30天的A/B测试，为两个测试版本分配了均等的流量，即各占50%，结果注册模块布局在左侧胜出，提交表单设计在页面的左侧的提交率相对右侧提高了30.8%。

(4) 算法优化

根据用户的历史记录推荐相似内容，还是根据相似兴趣用户的行为推荐相关内容，又或是根据内容本身的相关性给用户推荐？

例子：某资讯应用推荐算法实验

这次测试在后台系统中部署了三种推荐算法，当业务系统想要去获取推荐内容的时候，会依据engine_name的值去调用对应的推荐算法程序接口来获得推荐内容，最后返回给用户。当用户点击这些推荐的内容时，就认为完成转化。本次实验一共进行了一周的时间，抽取了3%的全网流量。

结果表明，最好的推荐算法比最差的推荐算法点击率要高出55%。统计显著性指标的结果也超过了95%，试验可以认定为有效。最终，该资讯应用在全网都采用了最佳的推荐算法。

(以上涉及到的例子均来自：云眼网站-https://www.eyeofcloud.com)

三、A/B 测试的实施步骤

A/B 测试核心的思想是多个方案并行测试，每个方案有一个或者多个变量，最后分析结果优胜劣汰。那一起看看如何操作A/B 测试：

(1) 分析现状

为什么要做A/B 测试？比如通过当前数据分析发现注册率、转化率非常低，并在转化路径中找到问题，尝试优化。

(2) 确立优化目标

建议大家要确立可量化的、可以落实到某一个具体功能点的、可实施的小目标，比如通过按钮的UI优化，将转化率提升15%，如果目标设置的太大太宽泛，可能就不好落地。

(3) 衡量指标

用来描述实验结果的指标，如下单转化率 = 下单人数 / 浏览人数，或者跳出率等等。

(4) 制定方案

基于原始版本制定多个优化方案，最后进行方案结果对比。如改变按钮位置或颜色将使其更加突出，提高转化率。

(5) 样本数量

选取多少的样本对实验的结果至关重要，不能跟着感觉走，选一个差不多的数量，比如几千几万。

样本量越大，影响面也就越大。对于一些探索性的实验来说，可能有一些负面影响。如果让全部用户都接触到，显然是不恰当的。

选择恰当数量的样本量，要根据实验而定，那么我们该如何确定所需的样本量呢？下面提供一个计算样本数量的小工具：

在上述工具中，输入原始版本的转化率、优化版本的转化率和统计显著性，即可计算出所需样本的数量大小，省时省力。

计算出样本数量后，再根据网站或App每天的访问数，即可计算出试验所需的时间，公式如下。

试验所需的时间 = 所需样本数量大小 / 每天访问数

(6) 测试方案：这里介绍用户终端如何对接某一第三方A/B 测试平台，首先根据不同终端(Web、Android、IOS等)安装对应的SDK，然后设置编辑编辑方案、目标、业务URL，分配流量等一系列操作。

下图就是该平台《用户使用手册PDF》，感兴趣的小伙伴，或需要文中提到的小工具，均可留言回复【test】获取，不是文末留言哦。

(7) 收集数据

如果是使用第三方平台SDK的话，将会自动收集之前设置好的衡量指标，否则只能通过手动埋点去获取。

(8) 分析结果

对于一个A/B测试来说，结果主要分成两种：有效和无效。无效的A/B测试实验对于团队来说，其实是非常宝贵的经验，避免以后再犯同样的错误。

而对于有效的A/B测试来说，我们成功通过实验提升了产品的转化率，这时我们可以把优胜的版本正式推送给全部用户，以实现产品用户的有效增长。

有效或者无效可依据统计显著性指标，一般来说，统计显著性要大于95%才认为A/B测试结束，但是，统计显著性达到95%有时需要很长的测试周期，考虑到机会成本，比如为了尽快推出新特性抢占市场先机，统计显著性达到90%也是可以接受的，但需要知道这是有一定风险的。

(具体了解统计显著性：https://www.eyeofcloud.com/175.html)

当然很多小伙伴可能看了文章后，对统计显著性还是不了解，太过于复杂难懂，下面介绍一款工具。

小工具主要功能：根据A、B版本的访问数和转化数，计算出转化率和统计显著性数值，并给出可信度结论。

统计显著性数值：≥95%：优化版本和原始版本之间有显著的统计差异，转化率的“改进”是可信的；

统计显著性数值：90%~95%：优化版本和原始版本之间的统计差异存有疑问，转化率的“改进”是存有疑问的；

统计显著性数值：<90%：优化版本和原始版本之间没有显著的统计差异，转化率的“改进”是不可信的。

关于A/B测试，先分享这些，欢迎各位小伙伴查缺补漏，每天学废一个小技术知识点，和技术打成一片~

如果你喜欢这篇文章，欢迎关注上面的公众号

最后，我建立了各大城市的产品交流群，想进群小伙伴加微信：yw5201a1 我拉你进群。

关注微信公众号：产品刘 可领取大礼包一份。

··················END··················

今日研报：阿里巴巴达摩院发布《2022十大科技趋势》，公众号后台回复“ 科技趋势”，即可下载完整PDF文件。

申明：报告版权归阿里巴巴达摩院独家所有，此处仅限分享学习使用，如有侵权，请联系小编做删除处理。

RECOMMEND