多期双重差分法实用指南:从基础原理到方法改进与效应解析

在这里插入图片描述

在这里插入图片描述

多期双重差分法(DiD)指南

引言

双重差分法(Difference - in - differences,DiD)是识别和估计参与某项处理对某些结果的因果效应时最常用的方法之一。

双重差分法的“经典”版本涉及两个时期和两个组。“未处理组”从不参与处理,而“处理组”在第二个时期接受处理。

然而,许多实际应用工作处理的情况是存在两个以上的时间周期,并且不同的单元可能在不同的时间点接受处理。无论时间周期的数量如何,在实际应用中,目前最主要的方法是尝试使用双向固定效应(TWFE)线性回归来估计处理效应。这种方法在两个时期的情况下效果很好,但最近有许多方法学论文指出,在多时期情况下使用双向固定效应可能存在重大缺陷。

本手册简要讨论了关于多期双重差分法的新兴文献,包括标准方法存在的问题以及针对这些潜在问题的补救措施。

背景

首先,我们将在本节中介绍一些背景知识。第一,我们将讨论两个时期和两个组的双重差分法,这是双重差分法的“经典”情况。第二,我们简要考虑在多时期情况下双向固定效应线性回归存在的问题。

两期两组的双重差分法

双重差分法的基本情况是有两个时期(我们将这两个时期称为 t 和 t - 1)和两个组(一个处理组和一个未处理组)。

符号/设定

  • 对于 s ∈ { t , t − 1 } s \in \{t, t - 1\} s{t,t1} Y i s ( 0 ) Y_{is}(0) Yis(0) 是单元 i i i 的“未处理潜在结果”,即如果单元 i i i 不参与处理,在时期 s s s 会经历的结果。
  • 对于 s ∈ { t , t − 1 } s \in \{t, t - 1\} s{t,t1} Y i s ( 1 ) Y_{is}(1) Yis(1) 是单元 i i i 的“处理后潜在结果”,即如果单元 i i i 参与处理,在时期 s s s 会经历的结果。
  • 对于处理组中的单元,令 D = 1 D = 1 D=1;对于未处理组中的单元,令 D = 0 D = 0 D=0
  • 在第一个时期,没有人参与处理。在第二个时期,处理组中的单元接受处理。这意味着观测到的结果由以下公式给出:
    Y i t − 1 = Y i t − 1 ( 0 ) Y_{it - 1}=Y_{it - 1}(0) Yit1=Yit1(0) Y i t = D i Y i t ( 1 ) + ( 1 − D i ) Y i t ( 0 ) Y_{it}=D_iY_{it}(1)+(1 - D_i)Y_{it}(0) Yit=DiYit(1)+(1Di)Yit(0)
    换句话说,在第一个时期,我们观察到所有单元的未处理潜在结果(这里内置了无预期假设)。在第二个时期,我们观察到实际参与处理的单元的处理后潜在结果,以及未参与处理的单元的未处理潜在结果。
  • 在大多数双重差分法设计中,主要关注的参数是处理组的平均处理效应(Average Treatment Effect on the Treated,ATT),其计算公式为:
    A T T = E [ Y t ( 1 ) − Y t ( 0 ) ∣ D = 1 ] ATT = E[Y_t(1) - Y_t(0)|D = 1] ATT=E[Yt(1)Yt(0)D=1]
    这是处理组单元的处理后和未处理潜在结果的平均差异。

双重差分法设计中的主要假设被称为平行趋势假设:

平行趋势假设

E [ Y t ( 0 ) − Y t − 1 ( 0 ) ∣ D = 1 ] = E [ Y t ( 0 ) − Y t − 1 ∣ D = 0 ] E[Y_t(0) - Y_{t - 1}(0)|D = 1]=E[Y_t(0) - Y_{t - 1}|D = 0] E[Yt(0)Yt1(0)D=1]=E[Yt(0)Yt1D=0]

通俗地说,这个假设意味着处理组单元“如果不参与处理”在一段时间内结果的变化(或“路径”)与未处理组单元实际经历的结果路径相同。平行趋势假设允许未处理潜在结果的水平在不同组之间存在差异,并且与例如未处理潜在结果的固定效应模型一致,其中未观察到的固定效应的均值在不同组之间可能不同。

这个假设可能很有用,因为处理组单元的未处理潜在结果路径(上述等式左边的项)是未知的,但研究人员可以观察到未处理组单元的未处理潜在结果路径(上述等式右边的项)。事实上,很容易证明,在平行趋势假设下,ATT 是可识别的,其计算公式为:
A T T = E [ Y t − Y t − 1 ∣ D = 1 ] − E [ Y t − Y t − 1 ∣ D = 0 ] ATT = E[Y_t - Y_{t - 1}|D = 1]-E[Y_t - Y_{t - 1}|D = 0] ATT=E[YtYt1D=1]E[YtYt1D=0]
也就是说,ATT 是处理组单元在一段时间内结果的平均变化与未处理组单元在一段时间内结果的平均变化之间的差异;在平行趋势假设下,后一项是处理组单元如果不参与处理的结果路径。

双向固定效应回归

现在让我们转向一个更一般的情况,即总共有 T T T 个时间周期。用 t t t 表示特定的时间周期,其中 t = 1 , … , T t = 1, \ldots, T t=1,,T

到目前为止,在这种情况下尝试估计二元处理效应的最常见方法是双向固定效应线性回归。这是一个如下形式的回归:
Y i t = θ t + η i + α D i t + v i t Y_{it}=\theta_t+\eta_i+\alpha D_{it}+v_{it} Yit=θt+ηi+αDit+vit
其中 θ t \theta_t θt 是时间固定效应, η i \eta_i ηi 是单元固定效应, D i t D_{it} Dit 是处理虚拟变量, v i t v_{it} vit 是随时间变化的不可观测变量,其均值与其他所有变量无关, α \alpha α 大概是我们感兴趣的参数。 α \alpha α 通常被解释为参与处理的“平均效应”。

尽管这在实际应用中本质上是一种标准方法,但最近有许多论文指出使用双向固定效应估计程序可能存在严重缺陷。这些论文包括:Borusyak 和 Jaravel(2018)、Goodman - Bacon(2021)、de Chaisemartin 和 D’Haultfoeuille(2020)以及 Sun 和 Abraham(2021)。

双向固定效应何时有效?

  1. 效应确实不存在异质性:如果参与处理的效应对于所有单元确实都是 α \alpha α,那么双向固定效应方法会非常有效。也就是说,在许多应用中,处理效应很可能是异质的,它们可能因不同单元而异,或者表现出动态变化,或者在不同时间周期发生变化。在特定应用中,这值得深入思考,但至少在我们看来,参与某些处理的效应存在异质性是常见情况。
  2. 只有两个时间周期:这是经典情况(两个时期,一个组在第二个时期接受处理,另一个组从未接受处理)。在这种情况下,在平行趋势和无预期假设下, α \alpha α 在数值上等于 ATT。换句话说,在这种情况下,即使看起来你将参与处理的效应限制为在所有单元中相同,但双向固定效应方法对处理效应异质性具有“鲁棒性”。不幸的是,当有更多时期且组在不同时间点接受处理时,这种对处理效应异质性的鲁棒性不再成立。

为什么双向固定效应方法对处理效应异质性不具有鲁棒性?

有专门的论文讨论这个问题,例如 Borusyak 和 Jaravel(2018)、Goodman-Bacon(2021)、de Chaisemartin 和 D’Haultfoeuille(2020)以及 Sun 和 Abraham(2021)。这里简单解释一下:在双向固定效应回归中,处理状态随时间不变的单元作为处理状态随时间变化的单元的对照组。在多个时间周期和处理时间不同的情况下,其中一些比较如下:

  • 新处理单元与“从未处理”单元相比(好!)
  • 新处理单元与“尚未处理”单元相比(好!)
  • 新处理单元与“已经处理”单元相比(糟糕!!!)

前两种比较是好的(或者至少符合双重差分法的精神),因为它们将接受处理的单元的结果路径与未参与处理的单元的结果路径进行调整。然而,第三种比较不同:它用已经处理单元的结果路径来调整新处理单元的结果路径。但这不是未处理潜在结果的路径,它包含了“处理效应动态”。因此,这些动态出现在 α \alpha α 中,“使得很难给出明确的因果解释”。

这个问题可能会产生严重后果。例如,有可能出现这样的情况:在所有时间周期内,所有单元参与处理的效应都是正的,但双向固定效应估计程序却得出参与处理的效应为负的估计结果。即使在可以排除“负权重”的情况下, α \alpha α 也只是 ATT 的加权平均值,不过这些权重很难解释。

多期双重差分法设计中的处理效应

鉴于在多期双重差分法设计中使用双向固定效应回归可能存在的问题,在这种情况下是否有其他替代方法呢?

答案是肯定的,而且事实证明这并不复杂!只需要使用组之间“好的/理想的”比较,而不是所有可能的比较。

为了明确思路,让我们提供一些扩展的符号,并明确我们要做出的识别假设。

符号

  • Y i t ( 0 ) Y_{it}(0) Yit(0) 是单元 i i i 的未处理潜在结果,即如果单元 i i i 不参与处理,在时期 t t t 会经历的结果。
  • Y i t ( g ) Y_{it}(g) Yit(g) 是单元 i i i 在时间周期 t t t 的潜在结果,前提是该单元在时期 g g g 接受处理。
  • G i G_i Gi 是单元 i i i 接受处理的时间周期(通常“组”由单元接受处理的时间周期定义,因此使用 G G G 这个符号)。
  • C i C_i Ci 是一个指示变量,用于表示单元 i i i 是否属于“从未处理”组。
  • D i t D_{it} Dit 是一个指示变量,用于表示单元 i i i 在时间 t t t 是否已经接受处理。
  • Y i t Y_{it} Yit 是单元 i i i 在时间周期 t t t 的观测结果。对于“从未处理”组中的单元,在所有时间周期内 Y i t = Y i t ( 0 ) Y_{it}=Y_{it}(0) Yit=Yit(0)。对于其他组中的单元,我们观察到 Y i t = 1 { G i > t } Y i t ( 0 ) + 1 { G i ≤ t } Y i t ( G i ) Y_{it}=1\{G_i > t\}Y_{it}(0)+1\{G_i \leq t\}Y_{it}(G_i) Yit=1{Gi>t}Yit(0)+1{Git}Yit(Gi)。这里的符号有点复杂,但通俗地说,我们观察到尚未参与处理的单元的未处理潜在结果,以及一旦开始参与处理的单元的处理后潜在结果(这些结果可能取决于它们“何时”接受处理)。这个符号中隐含着一个“无处理预期”假设,如Callaway 和 Sant’Anna(2021),“多期双重差分法”(https://doi.org/10.1016/j.jeconom.2020.12.001)中所讨论的,这个假设可以放宽。
  • X i X_i Xi 是处理前协变量向量。

主要假设

交错处理采用假设

回顾一下,如果单元 i i i 在时间 t t t 已经接受处理,则 D i t = 1 D_{it}=1 Dit=1;否则 D i t = 0 D_{it}=0 Dit=0。那么,对于
$ t = 1, \ldots, T - 1 , , D_{it}=1 \implies D_{it + 1}=1$

交错处理采用意味着一旦一个单元参与处理,它就会一直处于处理状态。换句话说,单元不会“忘记”它们的处理经历。这在经济学的许多应用中是常见情况。例如,对于在一段时间内逐步推广到不同地区的政策,就会出现这种情况。对于许多具有“伤痕”效应的单元级处理,也会出现这种情况。例如,在职业培训的背景下,许多应用将“曾经”参与处理定义为处理。

在双重差分法的背景下,我们认为如果不进一步限制处理效应在时间、组、处理顺序等方面的异质性,就很难分析非交错处理设置。这就是我们关注这种常见情况的主要原因。

基于从未处理单元的平行趋势假设:对于所有 g = 2 , … , T g = 2, \ldots, T g=2,,T t = 2 , … , T t = 2, \ldots, T t=2,,T t ≥ g t \geq g tg
E [ Y t ( 0 ) − Y t − 1 ( 0 ) ∣ G = g ] = E [ Y t ( 0 ) − Y t − 1 ( 0 ) ∣ C = 1 ] E[Y_t(0) - Y_{t - 1}(0)|G = g]=E[Y_t(0) - Y_{t - 1}(0)|C = 1] E[Yt(0)Yt1(0)G=g]=E[Yt(0)Yt1(0)C=1]

这是两期两组情况下平行趋势假设的自然扩展。它表明,在没有处理的情况下,在时间 g g g 首次接受处理的组和“从未处理”组的平均未处理潜在结果在所有处理后时期 t ≥ g t \geq g tg 都会遵循平行路径。

请注意,上述平行趋势假设依赖于使用“从未处理”单元作为所有“最终接受处理”组的对照组。这假定(i)数据中存在一个(足够大的)“从未处理”组,并且(ii)这些单元与最终接受处理的单元“足够相似”,从而确实可以用作有效的对照组。在不满足这些条件的情况下,可以使用另一种平行趋势假设,即使用“尚未处理”单元作为有效的对照组。

基于尚未处理单元的平行趋势假设

对于所有 g = 2 , … , T g = 2, \ldots, T g=2,,T s , t = 2 , … , T s, t = 2, \ldots, T s,t=2,,T t ≥ g t \geq g tg 以及 s ≥ t s \geq t st
E [ Y t ( 0 ) − Y t − 1 ( 0 ) ∣ G = g ] = E [ Y t ( 0 ) − Y t − 1 ( 0 ) ∣ D s = 0 , G ≠ g ] E[Y_t(0) - Y_{t - 1}(0)|G = g]=E[Y_t(0) - Y_{t - 1}(0)|D_s = 0, G \neq g] E[Yt(0)Yt1(0)G=g]=E[Yt(0)Yt1(0)Ds=0,G=g]

通俗地说,这个假设表明,在计算在时间 g g g 首次接受处理的组的平均处理效应时,可以使用在时间 s s s s ≥ t s \geq t st)尚未接受处理的单元作为有效的对照组。一般来说,这个假设在构建对照组时使用了更多的数据。然而,正如 Marcus 和 Sant’Anna(2021)(https://www.journals.uchicago.edu/doi/full/10.1086/711509)所指出的,这个假设确实限制了不同组之间的一些处理前趋势。换句话说,没有免费的午餐。

组 - 时间平均处理效应

上述假设是两期两组情况下识别假设在多期情况下的自然扩展。

同样,将感兴趣的参数(ATT)从两期两组情况推广到多期情况的一种自然方法是定义“组 - 时间平均处理效应”:
A T T ( g , t ) = E [ Y t ( g ) − Y t ( 0 ) ∣ G = g ] ATT(g, t)=E[Y_t(g) - Y_t(0)|G = g] ATT(g,t)=E[Yt(g)Yt(0)G=g]

这是组 g g g 中的单元在时间周期 t t t 参与处理的平均效应。请注意,当有两个时间周期和两个组(经典情况)时,处理组的平均处理效应由 A T T = A T T ( g = 2 , t = 2 ) ATT = ATT(g = 2, t = 2) ATT=ATT(g=2,t=2) 给出。

再举几个例子,假设研究人员可以获取三个时间周期的数据。那么, A T T ( g = 2 , t = 3 ) ATT(g = 2, t = 3) ATT(g=2,t=3) 是在时间周期 2 接受处理的单元组在时间周期 3 参与处理的平均效应。同样, A T T ( g = 3 , t = 3 ) ATT(g = 3, t = 3) ATT(g=3,t=3) 是在时间周期 3 接受处理的单元组在时间周期 3 参与处理的平均效应。

组 - 时间平均处理效应的识别

在上述任何一种平行趋势假设下,很容易证明组 - 时间平均处理效应是可识别的。例如,当采用基于“从未处理单元”的平行趋势假设时,对于所有 t ≥ g t \geq g tg,我们有:
A T T ( g , t ) = E [ Y t − Y g − 1 ∣ G = g ] − E [ Y t − Y g − 1 ∣ C = 1 ] ATT(g, t)=E[Y_t - Y_{g - 1}|G = g]-E[Y_t - Y_{g - 1}|C = 1] ATT(g,t)=E[YtYg1G=g]E[YtYg1C=1]

或者,当采用基于“尚未处理单元”的平行趋势假设时,对于所有 t ≥ g t \geq g tg,我们有:
A T T ( g , t ) = E [ Y t − Y g − 1 ∣ G = g ] − E [ Y t − Y g − 1 ∣ D t = 0 , G ≠ g ] ATT(g, t)=E[Y_t - Y_{g - 1}|G = g]-E[Y_t - Y_{g - 1}|D_t = 0, G \neq g] ATT(g,t)=E[YtYg1G=g]E[YtYg1Dt=0,G=g]

这些组 - 时间平均处理效应是理解多期双重差分法设计中参与处理效应的基石。

基于协变量的平行趋势

在许多情况下,如果平行趋势假设在对观测到的处理前协变量进行条件化后成立,那么这个假设会更加合理。换句话说,如果将平行趋势假设修改为:

基于从未处理单元的条件平行趋势假设

对于所有 g = 2 , … , T g = 2, \ldots, T g=2,,T t = 2 , … , T t = 2, \ldots, T t=2,,T t ≥ g t \geq g tg
E [ Y t ( 0 ) − Y t − 1 ( 0 ) ∣ X , G = g ] = E [ Y t ( 0 ) − Y t − 1 ( 0 ) ∣ X , C = 1 ] E[Y_t(0) - Y_{t - 1}(0)|X, G = g]=E[Y_t(0) - Y_{t - 1}(0)|X, C = 1] E[Yt(0)Yt1(0)X,G=g]=E[Yt(0)Yt1(0)X,C=1]

基于尚未处理单元的平行趋势假设

对于所有 g = 2 , … , T g = 2, \ldots, T g=2,,T s , t = 2 , … , T s, t = 2, \ldots, T s,t=2,,T t ≥ g t \geq g tg 以及 s ≥ t s \geq t st
E [ Y t ( 0 ) − Y t − 1 ( 0 ) ∣ X , G = g ] = E [ Y t ( 0 ) − Y t − 1 ( 0 ) ∣ X , D s = 0 , G ≠ g ] E[Y_t(0) - Y_{t - 1}(0)|X, G = g]=E[Y_t(0) - Y_{t - 1}(0)|X, D_s = 0, G \neq g] E[Yt(0)Yt1(0)X,G=g]=E[Yt(0)Yt1(0)X,Ds=0,G=g]

这些平行趋势假设是之前假设的条件版本。重要的是,它们允许结果在不同组之间存在特定于协变量的趋势,这在协变量分布因组而异的设置中尤为重要。

一个这种假设很有吸引力的例子是,研究人员感兴趣的是估计参与职业培训对收入的影响。在这种情况下,如果(在不参与职业培训的情况下)收入路径取决于教育程度、以前的职业或工作经验年限等因素(几乎可以肯定是这样),那么为了使平行趋势更可信,对这些类型的变量进行条件化就很重要。

在这种情况下,感兴趣的参数通常仍然是 A T T ( g , t ) ATT(g, t) ATT(g,t)(或它们的聚合)。在这种情况下,仍然很容易识别和估计 ATT。基本上,需要估计未处理组单元在给定 X X X 条件下的结果变化,但要对组 g g g 中个体的协变量分布上的 X X X 进行平均,以得到 A T T ( g , t ) ATT(g, t) ATT(g,t)(更多详细信息请参见Callaway 和 Sant’Anna(2021)及其中的参考文献)。在实践中,可以使用不同的方法来恢复这些参数。更准确地说,可以使用结果回归、逆概率加权或双重稳健方法来估计 A T T ( g , t ) ATT(g, t) ATT(g,t)。但是 did 包会为用户自动完成所有这些操作。

组 - 时间平均处理效应的聚合

组 - 时间平均处理效应是在多期和多组双重差分法背景下自然可识别的参数。但在许多应用中,可能会有很多这样的参数。这里有一些好处和成本。主要好处是使用组 - 时间平均处理效应相对容易考虑不同组和不同时间之间的异质效应。另一方面,总结这些效应可能很困难(例如,它们不是一个单一的数字)。

在论文Callaway 和 Sant’Anna(2021),“多期双重差分法”(https://doi.org/10.1016/j.jeconom.2020.12.001)中,我们提出了多种聚合组 - 时间平均处理效应的方法。这里,我们只考虑一些我们认为应用研究人员最常感兴趣的重要方法。首先,考虑每个组分别参与处理的平均效应,其计算公式为:
θ S ( g ) = 1 T − g + 1 ∑ t = 2 T 1 { g ≤ t } A T T ( g , t ) \theta_S(g)=\frac{1}{T - g + 1}\sum_{t = 2}^{T}1\{g \leq t\}ATT(g, t) θS(g)=Tg+11t=2T1{gt}ATT(g,t)

这个参数本身可能就很有意义,因为它可以突出处理效应相对于处理采用时期的异质性。此外,进一步聚合 θ S ( g ) \theta_S(g) θS(g) 以得到一个易于解释的总体效应参数也相当简单:
θ S O : = ∑ g = 2 T θ S ( g ) P ( G = g ) \theta_{SO}:=\sum_{g = 2}^{T}\theta_S(g)P(G = g) θSO:=g=2TθS(g)P(G=g)

θ S O \theta_{SO} θSO 是所有曾经参与处理的组参与处理的总体效应。在我们看来,这接近于两期情况下 ATT 的多期版本。因此,如果研究人员只能报告一个处理效应汇总参数,我们建议报告 θ S O \theta_{SO} θSO

在多期双重差分法设置中,很自然会问“处理效应如何随处理时间的推移而变化?”这里要注意的是,研究人员感兴趣的是理解处理效应的动态变化。这是应用工作中广泛使用的事件研究类型分析的核心。

在这种情况下,一种自然的聚合组 - 时间平均处理效应以突出处理效应动态变化的方法是:
θ D ( e ) : = ∑ g = 2 T 1 { g + e ≤ T } A T T ( g , g + e ) P ( G = g ∣ G + e ≤ T ) \theta_D(e):=\sum_{g = 2}^{T}1\{g + e \leq T\}ATT(g, g + e)P(G = g|G + e \leq T) θD(e):=g=2T1{g+eT}ATT(g,g+e)P(G=gG+eT)

这是已经接受处理正好 e e e 个时间周期的单元组参与处理的平均效应。

所有这些聚合方法在 did 包中都可以使用。

参考文献

  • Borusyak, Kirill, and Xavier Jaravel. “Revisiting Event Study Designs”. Available at SSRN 2826228 (2018)
  • Callaway, Brantly, and Pedro H. C. Sant’Anna. “Difference-in-differences with multiple time periods.” Journal of Econometrics, Vol. 225, No. 2, pp. 200-230, 2021.
  • de Chaisemartin, Clement, and Xavier d’Haultfoeuille. “Two-way fixed effects estimators with heterogeneous treatment effects.” American Economic Review 110.9 (2020): 2964-96.
  • Goodman-Bacon, Andrew. Difference-in-differences with variation in treatment timing." Journal of Econometrics, Vol. 225, No. 2, pp. 254-277, 2021
  • Marcus, Michelle, and Pedro H. C. Sant’Anna. “The Role of Parallel Trends in Event Study Settings: An Application to Environmental Economics”. Journal of the Association of Environmental and Resource Economists, Vol. 8, No. 2, pp. 235-275, 2021
  • Sun, Liyang, and Sarah Abraham. “Estimating dynamic treatment effects in event studies with heterogeneous treatment effects.” Journal of Econometrics, Vol. 225, No. 2, pp. 175-199, 2021
    在这里插入图片描述
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值