因果推断 - 反事实

NeverMoreH

于 2021-04-19 19:47:23 发布

阅读量7.7k

点赞数 4

分类专栏：因果推断文章标签：因果推断反事实

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ms961516792/article/details/115872496

版权

因果推断专栏收录该内容

4 篇文章

订阅专栏

目录

基础知识
案例实战

版权：转载前请联系作者获得授权。
声明：部分内容出自因果关系之梯，已获得原作者授权。
参考书籍：《The Book of Why》——Judea Pearl

基础知识

定义：对于包含外生变量 $U$ 和内生变量 $X$ 和 $Y$ 的SCM，形如 $Y_{X=x}(U=u)=y$ 表示“在 $U = u$ 的情况下，如果 $X = x$ ，则 $Y = y$ ”。其中， $Y_{X=x}(U=u)=y$ 可以简写为 $Y_x(u)=y$ 。

反事实分析的一般步骤：

外展。基于数据对外生变量 $U$ 进行估算。
干预。利用 $d o$ 算子改变模型（删除指向 $X$ 的箭头），得到新模型 $M_x$ ，反映我们提出的反事实假设。
预测。基于 $U$ 和 $M_x$ 来计算结果。

以上三个步骤可以总结为：

因果推断第一定律： $Y_x(u)=Y_{M_x}(u)$

反事实和干预的区别：

表现形式： $d o （ x ）$ vs $Y_x$
对 $X$ 进行干预，不会对 $X$ 的子孙节点造成影响，而反事实会。

如何理解第2条？可以考虑如下因果图， $P (Y ∣ d o (x))$ 和 $P(Y_x)$ 的含义显然不同。

计算 $P (Y ∣ d o (x))$ 时， $Y$ 的结果实际上和 $X$ 的取值毫无关系，因为路径被 $Z$ 阻断了！
计算 $P(Y_x)$ 时，会根据 $X = x$ 对对应的 $Z$ 进行改动，进而得到 $Y_x$ 。

案例实战

下面基于一个案例，加深对反事实分析的理解。
在下表中，学历共分为 $0, 1, 2$ 三种，分别代表高中，本科，研究生。 $S_0(u)$ 表示雇员 $u$ 在学历是高中时，现有的工资水平， $S_1(u)$ 和 $S_2(u)$ 则是在本科和研究生学历下的工资水平。由于在工作时，每个人的学历已经固定，只会是高中、本科和研究生中的一种。故，对于每一个雇员，有两个工资的值为 $?$ ，表示无法获得。

雇员 (u)	工龄 EX(u)	学历 ED(u)	工资 S0(u)	工资 S1(u)	工资 S2(u)
Alice	6	0	81000	?	?
Bob	9	1	?	92500	?
Lucy	9	2	?	?	97000
Daivd	8	1	?	91000	?
Est	12	1	?	100000	?
Flxs	13	0	97000	?	?
…	…	…	…	…	…

现在，我们想要研究一个反事实问题——如果Alice的学历是本科，那么她的工资应为多少？即：通过上表中的数据，估算 $S_1(Alice)$ 。

在不使用反事实分析的情况下，我们或许可以采用线性回归，通过统计得到你和数据的最佳直线：

$\times EX + 5000 \times ED + 65000$

并依此得出 $S_1(Alice)=2500 \times 6 + 5000 \times 1 + 65000 = 85000$

但是，上述方法有一个明显的弊端，即：对于任何雇员，如果他们的工龄和学历一致，则预测出的工资也是一致的！通过观察Bob和Lucy的工资，我们可以发现，这显然是不对的！

从表中可以看出，Bob和Lucy具有相同的工龄，但Bob的学历更低。那么，假如Lucy的学历和Bob一致，二人的工资应该一致吗？答案显然是否定的。因为，如果Lucy降低了学历，那么理论上她的工龄会比Bob更长，这会导致 $S_1(Lucy)>S_1(Bob)$ 。

如何在模型中体现这一点呢？

从因果的角度出发，我们首先可以构建如下的因果图：

我们还是通过线性回归拟合最佳直线，但是和上文中稍有不同：

$\times EX + 5000 \times ED + 65000 + U_S$

同时，我们还需要一个（可能是）下式的方程：

$\times ED + U_{EX}$

有了这两个方程后，我们就可以根据反事实分析的三个步骤，计算 $S_1(Alice)$ ：

根据数据估算出 $U_S=1000, U_{EX} = -1$ ;
使用 $d o$ 算子修改Alice的学历；
根据 $U_S=1000, U_{EX} = -1$ 计算出 $E D = 2$ ，再结合 $E D = 1$ 计算出 $S_1(Alice)=76000$ 。

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。