因果基本概念

目录

1. 辛普森悖论

 2. 调整公式的计算:

3. 后门准则:

 4. 前门调整


1. 辛普森悖论

看了很多关于辛普森悖论,但是说实话,讲的多很模糊,关于为什么会出现辛普森悖论?为什么认为性别在其案例中是混杂因子,并未说明清楚。今天终于找到一个能讲清相关原理的文章。

见链接:https://blog.csdn.net/naocanmani/article/details/120220239

案例:

小夏开了有一家tb店,他们请了一位明星为他们宣传,并且统计了不同性别以及总体的购买率进行比较,来分析这次请的明星是否对增加购买量有作用。

不宣传宣传
男性

20/50=0.4        a/b

38/100=0.38        c/d

女性

30/100=0.3       e/d

13/50=0.26         g/b

总体

50/150=0.33

51/150=0.34

     从上面表格中,我们可以发现,无论从男性角度还是女性角度,该店通过明星宣传貌似没有达到更好的购买率,但是从总体上看明星宣传还是起到了一定作用的。这就是辛普森悖论:分组比较频率与总体比较频率出现相反结果。

    不过这个从数学上比较好解释:a/b>c/d, e/f>g/h不能推出(a+e)/(b+f)>(c+g)/(d+h)。

在本例中也可以说是a/b>c/d, e/d>g/b不能推出(a+e)/(b+d)>(c+g)/(d+b)=>a+e>c+g=>c/d>g/b故可知性别干扰了数据。

这个例子中出现这个悖论的主要原因在于虽然小夏请了明星给他们代言,并且在平台上放了他的照片,但是平台在推送这个代言时,是智能推送的从而导致不同性别的人群被宣传的量存在差异。如下图所示,性别会干扰平台推送这个代言宣传。同时结合因果推断(二),我们可以发现B(性别)是一个混杂因子。、

为了探究宣传是否有用,我们假设给所有人都被宣传了do(A=1)得到P(C=1|do(A=1)),然后假设所有人都没有被宣传,P(C=1|do(A=0)),然后进行比较P(C=1|do(A=1))-P(C=1|do(A=0))

由于我们干预了宣传,即所有人都能被宣传到,也就可以排除性别对其的影响,因果图修改如下。

总结:辛普森悖论用协变量分层,可以消混杂。而LBW悖论用中间变量分层,引入了混杂。

 2. 调整公式的计算:

3. 后门准则:

定义:对于X到Y的路径中,如果Z集合中的节点不是X的后代节点,并且以Z为条件会阻断所有X和Y之间的后门路径,则Z满足(X,Y)的后门准则

如果B满足后门准则,则后门调整公式为:

案例:

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

 4. 前门调整

后门调整是消除混杂因子。

前门调整则是在无法控制混杂因子的情况下,可以对x到y的因果途径上的点进行概率计算,然后加权计算总概率。

一谈到前门调整,肯定不能缺少吸烟与肺癌的案例。

在这里插入图片描述

因为 我们无法收集吸烟基因 U 的数据,所以我们无法使用后门准则来阻断后门路径 X<–U-->Y 。在这种情况下,我们可以引入前门准则:首先,我们观测“吸烟”对“焦油沉积”的平均因果效应;然后,我们观测“焦油沉积”对“癌症”的平均因果效应;最后我们将两者联立起来求出“吸烟”对“癌症”的因果效应。

参考链接:因果推理初探总结_ocean0707的博客-CSDN博客

因果机器学习(Causal Machine Learning)是机器学习领域的一个分支,它关注的是从数据中识别和理解因果关系,而非仅仅描述关联。在传统的统计机器学习中,我们通常处理的是关联性数据,即观测到的现象之间的相关性。然而,因果机器学习更进一步,试图揭示事件之间的因果链,比如某个变量的变化是如何直接或间接地导致其他变量变化的。 因果机器学习基本概念包括: 1. **潜在原因(Latent Causes)**:这些是未观察到但可能影响结果的因素,通过寻找它们,我们可以推断出真正的因果影响。 2. **潜在干预(Latent Interventions)**:模拟现实世界中的干预,比如改变某个变量的值,来探究假设中的因果关系。 3. **do-notation(do操作符)**:这是一种在表达式中插入的符号,用于表示对系统进行干预的假设,如 "do(X=x)" 表示将变量 X 设置为 x。 4. **无偏估计(Unbiased Estimation)**:因果推断需要确保估计量在干预后的效果上是无偏的,这是评估因果模型的关键。 5. **工具变量(Instrumental Variables)**:当直接的因果路径难以识别时,可以使用与目标变量有因果关系但与混淆变量不相关的变量作为中介。 6. **双射学习(Structural Causal Models, SCM)**:这是一种用图形表示因果关系的方式,包含了系统的结构方程和变量之间的因果关系。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值