1、因果关系和因果模型是什么
因果关系是指两个事件之间的相互作用关系,其中一个事件是因,另一个事件是果。事件因发生在事件果之前。因果关系具有概率性,即原因的发生会增加结果发生的概率,不是指原因一定会导致结果的发生。
因果模型是用于研究变量之间因果关系的工具。其关注的重点是变量之间的因果关系,即一个变量是如何影响另一个变量的。因果模型允许我们模拟在改变某些变量的情况下,对其他变量的影响。也就帮助我们了解某个变量(因素)在不同的条件下会发生什么。
2、因果模型的作用
传统的机器学习模型通常寻找变量之间的统计关系,即一个事件发生的一段时间内另一个事件的变化。例,广告费用与销售额的变化关系。而因果模型可以帮助我们发现事件之间的内在因果关系。即究竟是哪些事件的发生导致了这种结果。例,感冒吃感冒药。
由于因果模型真正洞察了变量之间的内在联系。因此,因果模型不仅可以帮助我们提高机器学习模型的泛化能力以及鲁棒性;还可以帮助我们了解在某种人为干预的情况下,会导致的结果;还可以帮助我们理解机器学习模型的决策过程,了解在模型是如何做出特定的预测。
3、因果模型的发展历程
3.1、Hempel
Hempel将因果关系从哲学领域推广至数学领域。其提出的第一个因果模型为演绎-律法解释(D-N)模型:一个需要被解释的事件称为explanandum,提供解释的事件称为explanans。其推论形式为:
其中,代表不同的特定环境情况,
代表公理或法则,E为被解释项。即一系列的特定条件和公理(法则)会导致被解释项的发生。
第二个因果模型为归纳-统计解释(I-S)模型:一个随机实验发生后,产生了一个发生概率极高的事件。其推论形式为:
其中,R为随机试验,p为概率且很高,E为需要被解释的事件,双横线代表因果关系。I-S适用于统计性质的一般法则,将因果关系视为概率性质,概率反映了前提条件到结论的归纳强度。
其模型的局限性有:①在现实生活中,很难穷尽所有的相关因素至于解释方案内;②事件E本身发生的概率就非常高或非常低,很难确定其因果关系。
3.2、统计相关性解释模型(S-R)
其本质为:要确定效果E和潜在原因C之间的因果关系,必须至少比较两个概率(一个与C的存在有关,一个与C的缺席有关)。一个因素C在特定环境A下对E具有统计相关性,当且仅当: