因果推断是目前学术界和业界都在研究的热门内容。在常用的数据分析方法中,关注的是事件之间的相关性,而无法去识别事件之间的因果性,而很多时候在做决策与判断的时候,我们需要的是因果性。比如,我们想知道A事件的发生是否会导致B事件的出现,这种“导致”实际上是一种因果关系,而不仅仅是相关关系。目前,因果推断应用于业务数据分析的方法有很多,本文主要介绍一下因果推断中的“断点回归”。
断点回归是自然实验中的一种观察方法,简单理解就是在回归过程中,观察在临界点处是否出现“断点”,并分析引起“断点”的政策因素P对回归的因变量Y的具体影响。举个例子,在分析某一平台博主的收益时,发现关注人数超过10万后,会得到一个“V”的标志,现在想知道,有无“V”对平台博主的收益的影响,就可以使用“断点回归”的方法。接刚才的例子,如果我们使用“断点回归”来分析有无“V”对平台博主的收益的影响,我们可以观察关注人数在10万附近(包括接近10万但不到10万,以及超过10万但超过的不多)的平台博主的收益情况,看是否有显著差别。如果存在显著差别,说明“V”标志的有无会对平台博主的收益产生影响(因果性)。
用数理语言来表达“断点回归”的核心思想就是,对于一个回归方程L(y)=f(x),如果在x=a处引入了一个政策P(这个政策P在实际业务中可以是某个运营活动、某种触发机制、某类奖励等等),使得在x=a的附近邻域(a-e , a+e)内,以x∈(a-e,a)为范围建立的回归方程L1和以x∈(a,a+e)为范围建立的回归方程L2,它们的条件期望是相同的,但截距项不同,则说明政策P在x