A/Btest
定义
为同一个目标,设计两种方案,控制好变量,在同一时间段内,将两种方案随机投放市场中,让组成成分相同(相似)用户去体验两种方案之一,根据观测结果,判断哪个方案效果更好,主要是通过假设检验的方法得出结论
步骤
- 目标:拉新/提升用户活跃/提高留存/引流/提高GMV
- 衡量指标
订单转化率=有效订单数/访客数。
CTR点击转化率=广告的实际点击次数(严格的来说,可以是到达目标页面的数量)除以广告的展现量(Show content))
- 变体:新的推荐算法/新的营销策略/新的界面入口
- 原假设:新措施无效,u1<=u2 ,或者u1=u2 ,或者各选择项效果无差别,u1=u2=u3
- 备择假设:新措施显著有效,u1>u2 ,或者u1!=u2 ,或者各选项效果有显著差别 u1,u2,u3不全相等
- A/Btest
- 定义:为同一个目标,设计两种方案,将两种方案随机投向两组样本用户,通过观察样本用户的行为数据来判断哪种方案更好。通常会设置一个特定的指标来衡量两种方案的好坏,就是会看两组样本的指标数据表现进行判断,判断的方法主要是假设检验。
- 步骤
- 目标:拉新/提升用户活跃/提高留存/引流/提高GMV
- 变体:新的推荐算法/新的营销策略/新的界面入口
- 衡量指标
- 订单转化率=有效订单数/访客数。
- CTR点击转化率=广告的实际点击次数(严格的来说,可以是到达目标页面的数量)除以广告的展现量(Show content))
- 样本量:各组分别为多少,往往对应时间周期
- 原假设:新措施无效,u1<=u2 ,或者u1=u2 ,或者各选择项效果无差别,u1=u2=u3
- 备择假设:新措施显著有效,u1>u2 ,或者u1!=u2 ,或者各选项效果有显著差别 u1,u2,u3不全相等
- 显著性水平alpha
- 检验统计量
- 两样本均值检验
- 看样本量,大样本情况下,不管总体服从什么分布,都可看做正太分布,用Z统计量;小样本且正太总体情况下,如果总体方差(先验信息、业务沉淀)已知,则用Z统计量,总体方差未知用T统计量
- 实际中多为独立样本均值检验
- T统计量是有两总体方差相等和不等的情况,要做方差齐性检验,一般齐方差可以正常的写T检验统计量,非齐也可忽略,用T检验统计量但是效果不好,会导致P偏大
- 方差齐性检验:F统计量S12/S22服从F(n1-1,n2-1)
- 若非正太或方差非齐建议选择非参数检验方法(Wilcoxon符号秩检验),或者做数据变换box-cox、对数变换
- 可能是P比率,就是用p1、p2和p1(1-p1)、p2(1-p2)表示均值和方差
- 以上说的都是独立样本检验,比较常用,但是偶尔两组数据是一一对应的关系时,用配对检验效果会更好(大样本时可以Z不考虑那么多,但是小样本时用t统计量要考虑)
- 独立样本T检验条件
- 正太
- 独立
- 方差齐性
- 配对样本T检验条件
- 差值服从正态(原始总体无要求)
- 连续数据
- 其他都看作单样本检验
- 独立样本T检验条件
- 看样本量,大样本情况下,不管总体服从什么分布,都可看做正太分布,用Z统计量;小样本且正太总体情况下,如果总体方差(先验信息、业务沉淀)已知,则用Z统计量,总体方差未知用T统计量
- 三个以上样本均值检验
- 方差分析F统计量:用误差表示数据变异,实质是分析数据变异原因
- 前提:各总体正太、方差齐性、相互独立
- 误差分解:
- 组间误差:随机误差、系统误差(可能存在)
- 组内误差:随机误差
- 总误差:系统误差、随机误差
- MSA=SSA/k-1
- MSE=SSE/n-k
- 统计值F=MSA/MSE
- 临界值𝐹0𝑘−1,𝑛−𝑘
- 方差分析F统计量:用误差表示数据变异,实质是分析数据变异原因
- 两样本均值检验
- 判断
- 计算拒绝域临界值,与检验统计量的值比较
- 或计算p值,与alpha比较,若p较小,则拒绝