【Python实战因果推断】38_双重差分9

目录

Doubly Robust Diff-in-Diff

Propensity Score Model

Delta Outcome Model

All Together Now


Doubly Robust Diff-in-Diff

另一种纳入干预前协变变量和时间不变协变变量以考虑条件平行趋势的方法是制作双稳健差分法(DRDID)。要做到这一点,您学习了如何制作双重稳健估计器。不过,您需要做一些调整。首先,由于 DID 采用的是 Δy 模型,因此您不需要原始结果模型,而是需要一个随时间变化的 delta 结果模型。其次,由于您只关心 ATT,您只需要从对照单位中重建治疗人群。当我向您展示建立 DRDID 的步骤时,所有这些都会变得更有意义。

Propensity Score Model

DRDID 的第一步是建立倾向得分模型 \hat{e}(X),利用干预前的协变量来估计一个单位来自干预组的概率。该模型不考虑时间维度,这意味着您只需要一个时期的数据就可以对其进行估算:

 unit_df = (mkt_data_all
 # keep only the first date
 .astype({"date": str})
 .query(f"date=='{mkt_data_all['date'].astype(str).min()}'")
 .drop(columns=["date"])) # just to avoid confusion
 ps_model = smf.logit("treated~C(region)", data=unit_df).fit(disp=0)

Delta Outcome Model

接下来,您需要 Δy 的结果模型,这意味着首先需要构建 delta 结果数据。为此,您需要求出干预前和干预后的平均结果之差。这样做之后,由于时间维度已经被区分开来,因此每个单位都会有一行数据:

 delta_y = (
 mkt_data_all.query("post==1").groupby("city")["downloads"].mean()
 - mkt_data_all.query("post==0").groupby("city")["downloads"].mean()
 )

现在您有了Δy,您可以将其加入到单元数据集,并在其中匹配结果模型:

 df_delta_y = (unit_df
 .set_index("city")
 .join(delta_y.rename("delta_y")))
 outcome_model = smf.ols("delta_y ~ C(region)", data=df_delta_y).fit()

All Together Now

是时候将所有数据连接起来了。让我们先将所有需要的数据收集到一个数据框架中。对于最终估计器,您需要实际 Δy、倾向得分和 delta 结果预测值。为此,您可以从用于建立结果模型的 df_delta_y 开始,同时使用倾向得分模型 \hat{e}(X) 和结果模型 \widehat{m}(x) 进行预测。 结果又是一个单级数据框:

 df_dr = (df_delta_y
 .assign(y_hat = lambda d: outcome_model.predict(d))
 .assign(ps = lambda d: ps_model.predict(d)))
 df_dr.head()

有了这些,让我们来想一想双重稳健性 DID 会是什么样子。与所有 DID 一样,ATT 估计值是在单位接受治疗后的趋势与在控制下的趋势之间的差值。由于这些都是反事实量,我将分别用 Δy1 和 Δy0 表示。因此,概括地说,ATT 的计算公式为

\hat{\tau}_{DRDID}=\widehat{\Delta y}_1^{DR}-\widehat{\Delta y}_0^{DR}

我承认这不算什么,但这是一个很好的开始。从这里开始,你需要考虑如何以双重稳健的方式估算 \Delta y_{D}\mathrm{s}

让我们关注 Δy1。要估计治疗后的反事实,您需要用倾向得分的倒数对 y-\widehat{m}(x) 进行加权,从而重构整个人群的 y1。在这里,由于您只关心 ATT,所以不需要这样做;您已经得到了干预人群。因此,第一项变为

\widehat{\Delta y_1}^{DR}=1/N_{tr_i\in tr}(\Delta y-\widehat{m}(X))

对于另一项,您可以使用权重 1/(1-\hat{e}(x)) 来重建对照组下的普通人群。但同样,由于您关心的是 ATT,因此需要重建对照下的干预人群。要做到这一点,您只需用权重乘以成为治疗单位的几率,方便地说,这就是倾向得分:

w_{co}=\hat{e}(X)\frac{1}{1-\hat{e}(X)}

定义了权重后,就可以利用它来获得 Δy0 的估计值:

\widehat{\Delta y}_0^{DR}=\sum_{i\in co}w_{co}(\Delta y-\widehat{m}(X))/\sum w_{co}

差不多就是这样。和往常一样,代码看起来比数学简单得多:

 tr = df_dr.query("treated==1")
 co = df_dr.query("treated==0")
 dy1_treat = (tr["delta_y"] - tr["y_hat"]).mean()
 w_cont = co["ps"]/(1-co["ps"])
 dy0_treat = np.average(co["delta_y"] - co["y_hat"], weights=w_cont)
 print("ATT:", dy1_treat - dy0_treat)
 
 ATT: 1.6773180394442853

它非常接近真实 ATT,也非常接近您之前在 DID 中添加协变量时得到的 ATT。这样做的好处是您可以两次获得正确的估计结果。如果倾向得分模型或结果模型都正确(但不一定都正确),DRDID 就会起作用。为了避免本章太长,我就不在这里做了,但我鼓励你尝试用随机生成的列替换 ps 列或 y_hat 列,然后重新计算前面的估计值。你会发现最终结果仍然接近实际结果。

就像您对横截面数据进行双重稳健估计一样,要得到 DRDID 的置信区间,您需要使用您之前实现的块引导函数,将整个过程--结果模型、倾向得分模型--放在一个单一的估计函数中。

  • 15
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
贝叶斯因果推断是一种使用贝叶斯网络(Bayesian Network)进行因果关系推断的方法。贝叶斯网络是一种概率图模型,用于表示变量之间的依赖关系和因果关系。在贝叶斯网络中,节点表示变量,边表示变量之间的依赖关系。通过观察节点的状态,可以推断其他节点的状态。 在Python中,可以使用PyMC3库来构建贝叶斯网络模型。《Python贝叶斯分析》这本书从实际应用和编写程序的角度解释了贝叶斯统计的关键概念,并介绍了如何使用PyMC3来构建概率模型。这本书不要求读者具备生物学方面的基础知识,但需要读者具备使用Python编写程序的经验\[1\]。 贝叶斯因果推断的一个挑战是数据的结构与贝叶斯网络的独立性不一致。贝叶斯网络的推断算法旨在从概率中推断因果关系,与任何实验无关。因此,贝叶斯网络的推断是基于概率观察数据进行的。此外,贝叶斯网络的推断是从特定前提中得出一般性结论,与理论假设的表述无关。这是因为贝叶斯网络的推断是演绎的,而不是从因果假设的表述中得出的\[3\]。 因此,Python中的贝叶斯因果推断可以通过构建贝叶斯网络模型,并使用PyMC3库进行推断。这种方法可以帮助我们从观察数据中推断因果关系,并进行因果推断分析。 #### 引用[.reference_title] - *1* [Python贝叶斯分析 PDF 完整原版](https://blog.csdn.net/weixin_39850143/article/details/110996376)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [数学推导+纯Python实现机器学习算法12:贝叶斯网络](https://blog.csdn.net/weixin_37737254/article/details/102920363)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [贝叶斯因果网络_因果关系和贝叶斯网络](https://blog.csdn.net/weixin_26752765/article/details/108132740)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

水木流年追梦

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值