Shopify如何使用准实验和反事实来优化产品


公众号后台回复“图书“,了解更多号主新书内容

作者:糖甜甜甜

来源:DataGo数据狗

描述性统计数据和相关性关系探索是每个数据科学家的日常工作,但它们常常伴随着警告,即相关性不是因果关系。在Shopify,我们相信了解因果关系是探寻业务价值最大化的关键。由于因果关系可以验证整个业务战略是否有效,因此我们旨在识别出数据现象背后真正的原因。下面将讨论不同的因果推断方法,以及如何使用它们来优化产品。

一、因果推断的“递进式水平证明

数据科学家可以使用各种不同的方法来估算因素的因果关系。“递进式水平证明”很好地介绍了因果推断的思想模型。

递进式水平证明。一级(最清晰的证明):A/B测试;第二层次(合理的证明水平):准实验(包括差分,匹配,控制回归);第三级(最弱的证明水平):对事实的充分估计;四级:描述性统计数据-不提供因果关系

等级越高的方法就越容易计算构成强因果关系证明的估计。通常位于阶梯顶部的方法需要更多地关注实验设置。另一方面,阶梯底部的方法使用更多的观测数据,但需要更多地关注鲁棒性检查。该方法很好地解释了因果推理中没有免费的午餐。要获得强大的因果分析,您需要一个好的实验设置,或者一个好的统计学家和大量的工作。


二、 因果推论方法

1. A/B测试

A/B 测试或随机对照试验是因果推理的黄金标准方法!对于 A/B 测试,将A组和B组随机分配。除变量参数外,两组所处的环境相同。随机性确保两个组的其他变量都受控制,都为“平均水平”。这使能够从 A/B 测试中推断因果效应估计,因为它们唯一的区别是处理方法。为产品设置 A/B 测试是一项复杂的工作。如果是从头开始,则需要

  • 随机分流到每个实验组的算法。

  • 数据追踪机制,用于收集所有相关指标的数据。

  • 分析这些指标及其关联的统计信息以计算效应大小并验证因果效应。

而且这仅涵盖了基础知识!有时需要更多才能检测正确的信息。

2. 准实验

有时根本无法建立实验。A/B 测试无法在每种情况下都起作用的一些原因如下:

  • 缺少工具。例如,如果代码无法在产品的某些部分中修改。

  • 缺乏执行实验的时间。

  • 道德约束,例如,在Shopify上随机地使一些商家无法使用可以帮助他们开展业务的新功能。

  • 只是回顾分析历史数据。

如果遇到上述情况之一,则可以使用一些方法来获得因果估计。准实验(第2级)是一个非随机实验,处理组和对照组被自然过程划分,该过程并不是真正随机的,但被认为足够接近来计算估计值。准实验经常发生在产品公司中,例如,某个功能在不同国家的不同日期推出,或者是否符合一项新功能的资格取决于其他功能的行为。在Shopify中使用的两种方法。首先是固定效应线性回归。在这种方法中,假设是我们收集了将个体划分为处理组和对照组的所有因素的数据。对这些指标进行简单的线性回归,并控制这些因素,就可以很好地评估处理组的因果关系。

双重差分法的并行趋势假设。在没有处理的情况下,“处理组”和“对照组”之间的差异是恒定的。像这样在时间图中绘制两条线可以帮助检查假设的有效性。

第二种也是因果推理中非常流行的方法:双重差分法。为了使这种方法适用,必须先找到一个对照组,该对照组显示出与处理组指标平行的趋势,然后,在发生处理后,并行趋势中的中断仅是由于处理本身造成的。上图总结了这一点。

3. 反事实

最后,在某些情况下,您可能想尝试从仅包含处理组观察结果的数据中检测出因果关系。一个经典示例是评估一次向所有用户发布的新功能的效果:没有进行 A/B 测试,并且绝对没有对照组。在这种情况下,可以尝试进行反事实估计。反事实估计背后的想法是创建一个模型,可以计算反事实控制组。换句话说,估计如果不存在此功能将会发生什么。

时间序列反事实与观察数据的示例

举例说明一个反事实的好方法。几个月前,Shopify团队遇到了一种情况,我们需要评估安全更新的影响。该安全更新非常重要,已经向所有人推出,但是它给用户带来了麻烦。我们想看看这种麻烦的增加是否导致使用量减少。当然,我们无法在用户中找到对照组。在没有对照组的情况下,我们创建了一个时间序列模型来获得对更新功能使用情况的可靠反事实估计。我们在数据上训练了模型,例如不受安全更新影响的其他功能的使用以及描述Shopify活动的总趋势。所有这些变量都与我们正在研究的安全更新无关。当我们将模型的预测与实际进行比较时,我们发现没有提升,表明新的安全功能不会对使用产生负面影响。

使用反事实方法时,预测的质量至关重要。如果有一个模型可以预测某项功能的日常使用情况,而竞争对手在我们使用某项功能后立即推出了一项类似功能,则模型将无法考虑这一新因素。领域专业知识和严格的测试是进行反事实因果推断的最佳工具。

4. 稳健性

当无法执行完全随机化时,虽然准实验和反事实是不错的方法,但这些方法要付出一定的代价!折衷方案是,要计算合理的置信区间要困难得多,并且通常必须处理更多的不确定性-误报率很高。避免陷入陷阱的关键是稳健型检验。

稳健性实际上并不那么复杂。这需要清楚地说明方法和数据所依赖的假设,并逐步放宽每个假设,以查看结果是否仍然成立。如果发现由于单个变量而可能发生显着变化,尤其是该变量受到噪声,误差测量等影响时,它可以作为一种有效的一致性检查。直接非循环图(DAG)是检验稳健性的好工具,它们可以帮助在因果推断的背景下清楚地阐明假设。DAG来自于著名的计算机科学家Judea Pearl,最近在技术和学术界受到了广泛的关注。


三、 因果推论的三个最重要点

让我们快速回顾一下因果推理的重要要点:

  • A/B测试是因果关系推断最直接的方法,应该成为每个数据科学团队中的必备工具。

  • 但是,并非总是可以设置A/B测试。可以寻找自然实验来代替真实的实验。

  • 如果找不到自然实验,反事实方法可能会有用。但是不应期望使用这些方法来检测到非常弱的因果信息。

◆ ◆ ◆  ◆ ◆麟哥新书已经在当当上架了,我写了本书:《拿下Offer-数据分析师求职面试指南》,目前当当正在举行活动,大家可以用相当于原价5折的预购价格购买,还是非常划算的:


数据森麟公众号的交流群已经建立,许多小伙伴已经加入其中,感谢大家的支持。大家可以在群里交流关于数据分析&数据挖掘的相关内容,还没有加入的小伙伴可以扫描下方管理员二维码,进群前一定要关注公众号奥,关注后让管理员帮忙拉进群,期待大家的加入。
管理员二维码:
猜你喜欢
● 卧槽!原来爬取B站弹幕这么简单● 厉害了!麟哥新书登顶京东销量排行榜!● 笑死人不偿命的知乎沙雕问题排行榜
● 用Python扒出B站那些“惊为天人”的阿婆主!● 你相信逛B站也能学编程吗
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值