AB实验是对比分析思路中的一种测试方法
实验大致
为一定客户开发两套或多套基于同一目标的不同产品,随机分配,提取数据,分析得到转化率来决定
实验流程
确定方案所要实现的目的是什么,进而提出实现目的的假设
设计实验组与对照组
收集数据
结果分析
实验分析技术梳理
检验
实验关注指标由实验目的决定,对指标进行假设检验时有不同方法:
双样本t检验:适用于均值符合正态分布的指标
Z检验:适用于比率型(结构型)指标
卡方检验:用于AB分流的统计特性检验
错误率优化
假设检验就有第一和第二类错误
AB实验中,原假设就是实验组指标=对照组指标。为了确保由于分发产品的随机性,实验效果不会受到分组的群成员的影响(差异太大实验就没有效果了)
第一类错误就是原假设正确但是拒绝的概率α
第二类错误就是原假设错误但是接受的概率β
对第一类错误率优化就有:Delta方法和preaa无偏分流
对第二类错误率优化就有:降噪和CUPED
Preaa无偏分流
在进行在线实验(如AB测试)之前,使用场景日活跃用户(DAU)数据进行模拟分流,以优化实验的流量分配策略。
有两个要点需要注意:
①在进行数据分析或实验设计时,应该选择1到10个关键指标来衡量结果。
②如果某个场景或产品功能不涉及用户留存(即用户是否会回访或继续使用服务),那么在该场景下使用某些数据分析方法或AB测试可能不合适。
Delta方法
在AB测试或统计分析中,方差可能会被低估,尤其是当样本量较小或者数据违反了某些统计假设(如正态性)时。Delta方法可以用来修正这种被低估的方差估计。
分析误区
①双样本t检验的假设前提是实验指标均值服从正态分布
②由于存在辛普森悖论(分组数据指标显著合并后却不显著了,或者结论相反),解决方法:
-
实验组和对照组按等比调整:这意味着在分析数据之前,我们需要确保实验组和对照组在各个分类上的比例相似。这样可以避免由于组间不平衡导致的偏差。
-
细分人群分析时注意用户在人群之间的迁移:在进行细分人群的分析时,我们应该考虑到个体可能在不同的分类之间移动或转变。例如,一个用户可能从一个类别转换到另一个类别,这会影响到我们对数据的解释。
③为了避免在AB实验中存在幸存者偏差,因此,实验只能在具备用户留存指标的前提下进行。通过留存对比,如果留存出现显著性差异,则考虑在实验内进行用户去重分析,可以进行以下几个实验:
-
黑白盒实验:这是两种不同的软件测试方法。
- 黑盒测试:测试人员不了解系统的内部结构和实现细节,仅根据输入输出进行测试。
- 白盒测试:测试人员了解系统的内部结构,可以根据代码路径等进行测试。
-
拉活实验:指通过各种手段激活休眠用户或提高现有用户的活跃度。这包括但不限于推送通知、优惠活动、新功能发布等方式来吸引用户重新参与产品或服务。
-
异常实验
接入方式
实验类型:
客户端-在客户端使用表现型指标实验-客户端AB SDK
服务端-在服务端使用性能型指标实验-服务端AB SDK/分流接口
H5-在H5端(网页应用)使用表现型指标实验-分流接口
【术语解释:SDK是软件开发包,分流接口用于分配流量】
实验方式:
普通实验-普通分层实验-AB SDK/分流接口
父子实验-有迭代需求的实验,比如建立黑白盒实验作为父实验,子实验继承实验中白盒组不断进行迭代-AB SDK/分流接口
分析类型:
自助跑数-长尾指标,业务快速发展期的过程指标-提需求至业务分析师
平台实验分析-常用指标,保证口径的正确性和统一性-提需求至AB平台产品
架构
A/B实验辅助知识汇总
均值类指标:
人均使用时长、人均GMV、人均投稿数等
概率类指标:
次日留存、付费率、投稿率等
统计量计算
excel公式
(Z统计量):=ABS((均值1/比例1-均值2/比例2)/SQRT(方差1/样本量1+方差2/样本量2))
(P-Value)=(1-NORMSDIST(Z统计量))*2【*2因为是双尾】
看P值,P值小于0.05的就是显著(一般不会,因为显著就说明这个对照组和实验组某些与实验无关的特征差异太大,比如留存率,投稿率,付费,使用时长等等)
最小样本量
Sample Size Calculator (Evan’s Awesome A/B Tools) (evanmiller.org)
或者自己硬算
- 符号说明:
- n代表最小样本量
- Δ代表实验组和实验组评估指标的绝对差值大小
- σ_pooled^2代表实验组和对照组的综合方差,实际中可以用户指标的2倍的样本方差近似代替
- Z_(1-α/2)和Z_power代表对应的Z分数,在确定了显著性水平α和统计功效1-β后,这两个值为一个常数
MDE(检验灵敏度)
在A/B测试中,当目标指标不显著时,通过计算检验灵敏度(MDE)并与预期提升率进行比较,可以帮助判断结论的可靠性。如果MDE小于预期提升率,说明实验灵敏度足够,不显著结果可能是由于实际效应未达到预期;如果MDE大于预期提升率,则说明实验灵敏度不足,不显著结果可能是由于实际效应超过了MDE但未能被检测到。这种分析有助于避免因灵敏度不足而过早结束实验,从而错失有潜力的feature。
面试技巧
-
明确业务问题和实验目的:
- 技巧:站在业务的角度思考问题,展现你的业务理解能力。强调你对实验必要性的判断和预期设定的专业性。
-
给出实验方案:
- 技巧:详细阐述实验方案,展现你的策划和执行能力。同时,预留问题点,引导面试官提问,展示你的经验和处理问题的能力。
-
检测策略是否如预期生效:
- 技巧:强调你的责任心和细节把控能力。说明如何确保实验按预期进行,避免出现策略未生效的情况。
-
搭建实验看板或报表,观测数据趋势:
- 技巧:展示你的数据分析和可视化能力。强调这一步骤对实验成功的重要性,以及如何通过这一步骤提升自己的影响力。
-
回收数据进行分析:
- 技巧:强调数据分析不仅仅是数据层面的工作,更要结合业务逻辑。展现你的深度思考和分析能力。
-
根据分析结论明确后续行动:
- 技巧:使用柔和的措辞和语气,提出具有落地性的建议。展示你的沟通能力和如何使业务方接受你的建议。