前几天读到字节的一篇文章《9年70万次实验,字节跳动首次揭秘A/B测试》 ,文章内容暂且不论,主要想聊下这个标题。
实验方面的权威著作《Trustworthy Online Controlled Experiments》将实验平台按成熟度分成了crawl, walk, run, fly四个阶段。中国互联网公司中,字节与快手其实都早已进入了其中的最高阶段fly,即AB实验的大规模自动化,乃至事必AB。
这之后,笔者认为AB实验的次数已不再是一个多么重要的数字,而平台应该向更高的阶段去发展,从工业时代进入到智能时代。而在新的时代里,实验的数量实际上不会上升,反而会下降。因为平台将对海量的实验数据进行知识挖掘与发现,沉淀出更系统的业务知识体系,指导后续的策略迭代(可类比智能驾驶的L2阶段);并最终构建出一套预测体系,在实验之前,便对大量实验评估出其正负向结果(L4/L5阶段)。
本文将剖析工业时代实验平台存在的问题,并探讨未来智能时代对这些问题的解决路径。
一、工业时代的A/B实验:单点模式下的效率与认知两大难题
1.1 工业时代实验平台的设计目标-单点模式
工业时代实验平台的特征是大规模、自动化。平台通过一系列通用模块实现了各种实验低成本、大规模的并行测试,保障实验结果互不干扰(所谓“正交”),同时还给出详尽的实验数据分析及显著性检测以供决策。上述模式以单个实验作为其设计与操作的单位,每个策略单独开实验,单独看效果。更深层次地,笔者认为,整个实验平台以低成本测试单个想法为其设计目标。甚至AB这个名字,也侧面体现了低成本的目标。因为统计实验其实有很多方法,A/B只是其中最简单,理解成本也最低的一种实验,正因如此才最有利于大规模实现,而A/B也成了实验平台的代名词。
1.2 单点模式下失控的成本:缺乏预判
但这个设计目标中的成本,考虑的仅是实验的实施成本,并没有考虑业务成本。遗憾的是,业务成本才是总成本中的主体部分。
一个产品feature进行实验的业务成本其实是相当高的,尤其是其中的时间成本。一个产品idea从创意到PRD、评审、到研发、封版、发版,要经历几周,然后用户更新版本,DA进行实验分析,业务决定是否推全。整个流程走下来,最快也要三周,经常需要一个月以上。这样的速度,好像与我们平时说的快速迭代并不相符。看起来,大厂的快速迭代可能更多是通过高并发来实现的,字节9年70万次实验,也就是平均每天200+实验,我好像明白了什么。
那么,如何才能降低业务成本呢?从实验策略各阶段所占的人天数来看,业务成本最主要是从研发阶段才开始