目录
1. 辛普森悖论
看了很多关于辛普森悖论,但是说实话,讲的多很模糊,关于为什么会出现辛普森悖论?为什么认为性别在其案例中是混杂因子,并未说明清楚。今天终于找到一个能讲清相关原理的文章。
见链接:https://blog.csdn.net/naocanmani/article/details/120220239
案例:
小夏开了有一家tb店,他们请了一位明星为他们宣传,并且统计了不同性别以及总体的购买率进行比较,来分析这次请的明星是否对增加购买量有作用。
不宣传 | 宣传 | |
男性 | 20/50=0.4 a/b | 38/100=0.38 c/d |
女性 | 30/100=0.3 e/d | 13/50=0.26 g/b |
总体 | 50/150=0.33 | 51/150=0.34 |
从上面表格中,我们可以发现,无论从男性角度还是女性角度,该店通过明星宣传貌似没有达到更好的购买率,但是从总体上看明星宣传还是起到了一定作用的。这就是辛普森悖论:分组比较频率与总体比较频率出现相反结果。
不过这个从数学上比较好解释:a/b>c/d, e/f>g/h不能推出(a+e)/(b+f)>(c+g)/(d+h)。
在本例中也可以说是a/b>c/d, e/d>g/b不能推出(a+e)/(b+d)>(c+g)/(d+b)=>a+e>c+g=>c/d>g/b故可知性别干扰了数据。
这个例子中出现这个悖论的主要原因在于虽然小夏请了明星给他们代言,并且在平台上放了他的照片,但是平台在推送这个代言时,是智能推送的从而导致不同性别的人群被宣传的量存在差异。如下图所示,性别会干扰平台推送这个代言宣传。同时结合因果推断(二),我们可以发现B(性别)是一个混杂因子。、
为了探究宣传是否有用,我们假设给所有人都被宣传了do(A=1)得到P(C=1|do(A=1)),然后假设所有人都没有被宣传,P(C=1|do(A=0)),然后进行比较P(C=1|do(A=1))-P(C=1|do(A=0))
由于我们干预了宣传,即所有人都能被宣传到,也就可以排除性别对其的影响,因果图修改如下。
总结:辛普森悖论用协变量分层,可以消混杂。而LBW悖论用中间变量分层,引入了混杂。
2. 调整公式的计算:
3. 后门准则:
定义:对于X到Y的路径中,如果Z集合中的节点不是X的后代节点,并且以Z为条件会阻断所有X和Y之间的后门路径,则Z满足(X,Y)的后门准则。
如果B满足后门准则,则后门调整公式为:
案例:
4. 前门调整
后门调整是消除混杂因子。
前门调整则是在无法控制混杂因子的情况下,可以对x到y的因果途径上的点进行概率计算,然后加权计算总概率。
一谈到前门调整,肯定不能缺少吸烟与肺癌的案例。
因为 我们无法收集吸烟基因 U 的数据,所以我们无法使用后门准则来阻断后门路径 X<–U-->Y 。在这种情况下,我们可以引入前门准则:首先,我们观测“吸烟”对“焦油沉积”的平均因果效应;然后,我们观测“焦油沉积”对“癌症”的平均因果效应;最后我们将两者联立起来求出“吸烟”对“癌症”的因果效应。