【论文翻译&笔记】Test & Roll: Profit-Maximizing A/B Tests

Feit E M, Berman R. Test & Roll: Profit-Maximizing A/B Tests[J]. Marketing Science, 2019: 1038-1058.

摘要：

营销人员通常使用A/B测试作为一种工具，在测试阶段比较营销处理，然后将性能更好的处理部署到剩余的消费者群体中。虽然这些测试传统上是通过假设检验来分析的，但我们将其重新定义为在测试的机会成本（某些客户接受次优治疗）和向其余人群部署次优治疗相关的潜在损失之间的明确权衡。

我们得到了利润最大化测试规模的一个闭式表达式，并表明它比通常推荐的假设检验小得多，特别是当响应是噪声或总人口很小时。使用小规模持留群体的常见做法可以通过不对称的先验知识加以合理化。所提出的测试设计实现了几乎相同的预期遗憾与灵活，但是在广泛的条件下很难实行多臂老虎机。

我们在三种不同的营销环境中展示了该方法的优势——网站设计、展示广告和目录测试——在这三种环境中，我们从过去的数据中估算出优先权。在这三种情况下，最优样本量比传统假设检验的样本量要小得多，因此利润更高。

关键词：A/B检验、随机对照试验、市场试验、贝叶斯决策理论、样本量

引言

实验是一个重要的工具，营销人员在广泛的设置，包括直邮，电子邮件，显示广告，社会媒体营销，网站优化，和应用程序设计。在战术营销环境中，我们称之为“测试和滚动”实验（test&roll experiments），关于客户反应的数据首先是在测试阶段收集的，在测试阶段，客户子集被随机分配给一个方案组。在接下来的滚动阶段，营销人员根据测试结果向所有剩余的客户部署一种处理方案。

我们开发了一种新的方法来规划和分析有限总体的A/B测试。而零假设检验是科学和医学研究中的“黄金标准”，通常被推荐用于市场试验（例如，Pekelis等人。（1）中的统计显著性阈值对于以利润最大化为目标的test&roll实验来说是一个糟糕的决策规则，，原因有四。

首先，在典型显著性水平（如α=0.05）下进行的假设检验，以避免得出两种方案在不存在时表现不同的结论。然而，假设没有部署成本，这些I类错误对利润的影响很小。如果不能拒绝空值并且两个处理产生相同的效果，则无论部署哪个处理，都将获得相同的利润。由于测试阶段学习和滚动阶段收益之间的利益权衡，基于零假设测试的保守样本量通过让太多人在测试中受到不太有效的处理而降低了总体预期利润。

我们在第2节中重新构建了测试和滚动决策问题，重点关注利润，并在测试的机会成本（某些客户接受次优处理）和将次优处理部署到有限总体的剩余部分相关的损失之间做出明确的权衡。实际上，我们定义的问题可以看作是一个多臂老虎机的受限版本，其中只有两个分配决策，而不是多个。

在第三节中，我们推导了利润最大化样本容量的一个新的封闭解，假设每个客户的平均收入正态分布。在这个框架下的测试样本量通常比（2）推荐的要小得多。与假设检验的样本量随（2）中的响应方差线性增加不同，利润最大化样本量随响应的标准偏差呈次线性增加，导致当响应有噪声时测试规模大大减小。利润最大化的样本也与可用总体规模的平方根成比例，因此它们自然地可以扩展到大环境和小环境。

利润最大化测试在处理效果较大时以高概率识别出最佳执行的方案，从而实现了性能的提高；当处理效果较小时，由于处理选择错误而造成的损失利润（遗憾）很小。们还表明，利润最大化样本量的test&roll几乎达到了与多臂老虎机问题的汤普森抽样解决方案相同的遗憾水平（Scott 2010，Schwartz et al。2017年）；两人都有O（√N）的遗憾。尽管相对于多臂老虎机来说是次优的，但利润最大化test&roll提供了一个透明的决策点，降低了操作复杂性，而不会造成显著的利润损失。

第4节将分析扩展到处理上具有不同优先级的情况，并提供了一种计算最佳样本量的有效数值方法。这使我们能够合理化使用不相等规模的方案组的常见做法，当两种方案被认为是先验地产生不同的反应时，例如比较媒体曝光与不曝光的测试或比较两种不同价格的测试。

为了说明如何在实践中设计测试和滚动实验，第5节提供了三个实证应用：网站设计、在线展示广告和目录营销。对于每个应用程序，我们根据之前的类似实验来估计优先级。这些应用程序显示了由不同的优先级产生的广泛的测试设计，并显示了零假设测试所支持的“一刀切”方法并不能使利润最大化。在第6节中，我们将讨论test&roll框架的潜在扩展以及对a/B测试人员的影响。有关命题和证明的完整陈述见附录。

6 Discussion

我们提出了一种新的A/B测试样本量规划方法。与传统的假设检验强调高可信度和高能力不同，我们的方法在滚动阶段不部署最佳治疗方案和在测试阶段识别该方案的成本之间进行最佳平衡。实际结果是，推荐的测试规模要小得多，可以根据可用的总体规模进行调整。最重要的是，通过关注利润，我们表明，不应阻止营销人员进行小型测试并根据结果采取行动；虽然不完美，但此类较小的测试会增加利润。利润最大化测试可能会不平等地将测试样本分成不同的处理方式，从而使我们能够合理化营销实验中的这种常见做法。

利润最大化的样本量是为市场营销活动而优化的，通常目标人群有限。直接营销活动通过有限的邮件列表进行。媒体活动有固定的预算。网页流量有限。在有限总体的情况下，公司应该确定哪种方案适合大多数人群，而不是在测试中“浪费”太多的暴露在次优方案上。

与完全动态方法不同（Bertsimas和Mersereau 2007，Chick和Frazier 2012，Schwartz等人。2017年）我们的方法适用于典型的A/B测试框架，除了推荐的样本量外，不需要更改测试软件。通过确定试验阶段的结束，限制必须维持的替代方案的数量，并提供关于正在选择的方案、导致选择这种方案的证据以及预期益处（或遗憾）是什么的透明度来降低操作复杂性。管理者可以在“滚动”前插入，这些特性使利润最大化的测试和滚动对营销人员具有吸引力。

我们的方法的一个局限性是不能总是选择最好的方案。虽然错误率可能高于典型的零假设检验所保证的错误率，但是利润最大化检验规模基于处理之间的潜在差异和由此产生的机会成本来优化设置错误率。在决策者不愿承担风险或采用低于标准的治疗成本非常高的情况下，如在临床试验中（Berry等人。1994，Cheng等人。2003年），那么其他方法是有必要的。

进一步扩展第2节中介绍的测试和滚动框架将是有用的。当一组实验的数据变得可用时（Johnson等人。2017年，Bart等人。2014年），我们有机会为不同的测试环境开发一个先验目录。可以考虑其他形式的优先分配。例如，Stallard等人。（2017）使用近似值将测试和滚动框架扩展到指数族的响应分布。（Azevedo等人。2019年）专注于长尾巴的前科。

测试和滚动方法很容易扩展到两种以上的治疗方法，可能会考虑到相关的先验知识，例如，对于一个坚持治疗的群体和几种替代的营销治疗方法。对于线下营销治疗来说，在不同治疗方法之间切换的成本可能相当可观，这也可以纳入决策问题中。如果有可能将不同的治疗方法应用于亚人群，那么识别异质治疗效果的可能性（Hitsch和Misra 2018，Simester等人。2019）可在试验设计中考虑。同样，可以考虑反应中的时间依赖性，例如星期几或“新颖性”影响。这些扩展都很自然地适合于test&roll框架。