A/B测试精要-CSDN博客

本文链接：https://blog.csdn.net/liangsena/article/details/122574231

A/B测试

引入

15 世纪末，人类开启了大航海的伟大时代。然而航海中容易出现坏血病，发病以后，病人症状会从牙龈出血发展到全身溃烂而死，非常严重。现在我们都知道，得坏血病是因为水手们长期漂流在海上，没有新鲜蔬菜水果，缺乏维生素 C 导致的，但当时不知道，只好胡乱实验，有喝稀硫酸的，有喝海水的，但基本都没用，有时碰巧好了，但闹不清究竟是喝什么好的。几百年过去，一直找不到真正合适的药。
到了 1747 年，英国军舰上有一位医生姆斯 · 林德，灵机一动，想出一个 “ A/B 测试 ” 的方法，把 12 位生病的海员分成 6 组，每组两人，分别用不同的验方，比如第一组吃橘子、柠檬，第二组喝稀硫酸，第三组喝海水 …… 结果六天之后奇迹发生了，第一组吃橘子、柠檬的好了，其他组都没好，反复试都是这个结果，于是真正对症的药找到了，就是吃水果。
虽然因为当时科学还不够发达，背后的病因（缺乏维生素 C）并不知道，但确切有效的疗法和药有了，这就够了。这就是 “ A/B 测试 ” 的神力。

一、定义

A/B测试，也称为分割测试或桶测试，是一种将网页或应用程序的两个版本相互比较以确定哪个版本的性能更好的方法。AB测试本质上是一个实验，其中页面的两个或多个变体随机显示给用户，统计分析确定哪个变体对于给定的转换目标（指标如CTR）效果更好。

二、步骤

确定目标： 目标是用于确定变体是否比原始版本更成功的指标。可以是点击按钮的点击率、链接到产品购买的打开率、电子邮件注册的注册率等等。
创建变体： 对网站原有版本的元素进行所需的更改。可能是更改按钮的颜色，交换页面上元素的顺序，隐藏导航元素或完全自定义的内容。
生成假设： 一旦确定了目标，就可以开始生成A/B测试想法和假设，以便统计分析它们是否会优于当前版本。
收集数据： 针对指定区域的假设收集相对应的数据用于A/B test分析。
运行试验： 此时，网站或应用的访问者将被随机分配控件或变体。测量，计算和比较他们与每种体验的相互作用，以确定每个用户体验的表现。

分析结果： 实验完成后，就可以分析结果了。A/B test分析将显示两个版本之间是否存在统计性显著差异。

三、避坑

辛普森悖论

举个🌰：

“校长，不好了，有很多男生在校门口抗议，他们说今年研究所女生录取率42%是男生21%的两倍，我们学校遴选学生有性别歧视”，校长满脸疑惑的问秘书：“我不是特别交代，今年要尽量提升男生录取率以免落人口实吗？”
秘书赶紧回答说：“确实有交代下去，我刚刚也查过，的确是有注意到，今年商学院录取率是男性75%，女性只有49%；而法学院录取率是男性10%，女性为5%。两个学院都是男生录取率比较高，校长这是我作的调查报告。”
“秘书，你知道为什么个别录取率男皆大于女，但是总体录取率男却远小于女吗？”
此例这就是统计上著名的辛普森悖论(Simpson’s Paradox)

当人们尝试探究两种变量（比如新生录取率与性别）是否具有相关性的时候，会分别对之进行分组研究。然而，在分组比较中都占优势的一方，在总评中有时反而是失势的一方。该现象于20世纪初就有人讨论，但一直到1951年，E.H.辛普森在他发表的论文中阐述此一现象后，该现象才算正式被描述解释。后来就以他的名字命名此悖论，即辛普森悖论。

回避方式：
为了避免辛普森悖论出现，就需要斟酌个别分组的权重，以一定的系数去消除以分组资料基数差异所造成的影响，同时必需了解该情境是否存在其他潜在要因而综合考虑。