1. 背景
在产品快速迭代的过程中,数据分析师需要量化评估不同的市场营销活动和产品迭代等事件实际影响业务指标的效果,探索产品和业务的因果关系,并从结果中学习来不断验证产品迭代方向,使其业务走向更加清晰。
但产品本身有自然增长趋势,且具有较明显的季节性、周期性波动,如何排除这类自然因素和其他干扰因素对产品的影响大小,互联网行业通用方法为 AB 测试;但对于某些指标的流量无法满足或部分场景无法实现 AB 测试时,统计学上的“因果推断”方法正成为互联网业务评估应用的新方向,通常用于行为科学研究中,以了解从观察数据结果中的业务因果关系。
2. 效果量化评估方法
效果量化评估有两个通用的研究设计方向:
一是 AB 测试。在实验研究中将用户随机分配到不同的实验组和控制组中,然后计算达到实验效果所需的样本量,实验满足样本量时计算实验结果。因为随机性控制了其他干扰变量的影响,所以实验结果就是该实验因子对结果变量的真实影响大小。
二是观察研究。统计相关性并不意味着因果关系,甚至因果关系也无法直接倒推相关性成立,所以想找到真正影响到业务的因素并不容易。通用的 A/B Test 也有一定的局限性,需要占用足量的随机流量,并且需要持续一段时间以收集数据,产品流量较小时,需要花一定的时间实现,比较耗费人力;鉴于 A/BTest 种种局限性,如何利用手边已有的历史数据进行 “因果推断”分析。
3. 因果推断方法和适用场景
观察研究中的因果推断利用的反事实理论就是和我们能够观测到的现实情况相反的一种状态(Rubin 1980)。因果推理(Causal inference)是根据影响