【Python实战因果推断】36_双重差分7

最新推荐文章于 2024-07-15 21:54:08 发布

水木流年追梦

最新推荐文章于 2024-07-15 21:54:08 发布

阅读量277

点赞数 6

分类专栏：因果推断文章标签： python 数据库 linux

本文链接：https://blog.csdn.net/qq_32146369/article/details/139394825

版权

因果推断专栏收录该内容

118 篇文章 47 订阅

订阅专栏

Effect Dynamics over Time

现在，您可能已经对经典 DID 有了相当深入的了解，这意味着您现在可以尝试偏离经典 DID，转而采用更天马行空的方式。一个稍微复杂一点的方法是，当你想把随时间变化的效应动态纳入其中时。如果你回过头来看一下显示干预结果演变的曲线图，就会发现干预组和对照组之间的差异并不会在干预发生后立即增大。相反，干预需要一段时间才能充分发挥效果。换句话说，干预效果不是立竿见影的。这种现象不仅在市场营销中相当常见，在对整个地域进行任何干预时也是如此。这也意味着你可能会低估最终的干预效果，因为你把干预效果尚未完全成熟的时期也计算在内了。

解决这个问题的一个简单方法是估计随时间变化的 ATT。如果你真的很聪明，你可以通过为干预后的每个时期创建虚拟变量来实现这一目的，但我最喜欢的获得随时间变化的效果的方法是使用一点蛮力：迭代所有时间段并运行 DID，就好像只有该时间段是干预后的时间段一样。

为了做到这一点，让我们创建一个函数，接收一个数据帧和一个日期，并将该日期作为干预后的时间段运行 DID：

 def did_date(df, date):
 df_date = (df
 .query("date==@date | post==0")
 .query("date <= @date")
 .assign(post = lambda d: (d["date"]==date).astype(int)))
 
 m = smf.ols(
 'downloads ~ I(treated*post) + C(city) + C(date)', data=df_date
 ).fit(cov_type='cluster', cov_kwds={'groups': df_date['city']})
 
 att = m.params["I(treated * post)"]
 ci = m.conf_int().loc["I(treated * post)"]
 
 return pd.DataFrame({"att": att, "ci_low": ci[0], "ci_up": ci[1]},
 index=[date])

首先，该函数只筛选干预前的时间段和通过的日期。然后，它会过滤等于或早于通过日期的日期。如果通过的日期是治疗后的日期，那么这个筛选是无害的。如果该日期是干预前的日期，则会删除其后的日期。这样，您甚至可以运行干预前的 DID。实际上，要做到这一点，您需要下一行代码，在这行代码中，函数会将干预后的时间段重新指定为指定的日期。现在，如果您传入一个干预前的日期，函数会假装它来自干预后的时期，这就像是时间维度上的安慰剂测试。最后，函数会估计一个 DID 模型，提取 ATT 及其置信区间。然后，它将所有数据存储在一个单行数据框中。

该函数适用于单个日期。要获得所有可能日期的效果，可以遍历这些日期，每次都能获得 DID 估计值。请记住，您需要跳过第一个日期，因为 DID 至少需要两个时间段才能运行。如果将所有结果存储在一个列表中，则可以在该列表上调用 pd.concat，将所有结果合并到一个数据框中：

 post_dates = sorted(mkt_data["date"].unique())[1:]
 atts = pd.concat([did_date(mkt_data, date)
 for date in post_dates])
 atts.head()

然后，您可以绘制随时间变化的效果图及其置信区间图。这幅图显示，干预发生后，效果并没有攀升。此外，如果剔除尚未完全成熟的早期阶段，ATT 似乎会更高一些。我还绘制了真实效应τ，这样你就能看到这种方法是如何很好地恢复真实效应的：

这幅图的干预前部分也值得大家注意。在此期间，所有估计效应都与零无异，这表明效应在干预前并没有发生。这有力地证明了 "无预期 "假设在这种情况下是成立的。

水木流年追梦

关注

6
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
【Python实战因果推断】36_双重差分7

实际上，要做到这一点，您需要下一行代码，在这行代码中，函数会将干预后的时间段重新指定为指定的日期。现在，如果您传入一个干预前的日期，函数会假装它来自干预后的时期，这就像是时间维度上的安慰剂测试。现在，您可能已经对经典 DID 有了相当深入的了解，这意味着您现在可以尝试偏离经典 DID，转而采用更天马行空的方式。如果你真的很聪明，你可以通过为干预后的每个时期创建虚拟变量来实现这一目的，但我最喜欢的获得随时间变化的效果的方法是使用一点蛮力：迭代所有时间段并运行 DID，就好像只有该时间段是干预后的时间段一样。
复制链接

扫一扫