Cluster standard errors又称 or Liang-Zeger standard errors。
1. Intuition-一个经典的例子
如果想考察一项新的教学方式,如引入课堂投影仪对学生成绩的影响。将全国的学校分为实验组和控制组,实验组的班级里老师开始使用投影仪,而控制组则未使用。当使用计量模型分析引入投影仪对学生成绩的影响时,我们可能保留student-level的数据,核心解释变量就是是否引入投影仪,同时控制student-level的其他characteristics,如智商、家庭收入等。此时,在估计系数时,会发现classic或者heteroscedasticity-robust standard error均不合适,因为在同一个班级内,学生成绩并非独立分布的。例如,一个班级的教师水平更高的话,可能该班级的学生的成绩整体更高。因而可以在class-level进行cluster standard errors。(有一个疑问,这里和直接控制class fixed effect的区别是什么?)
2. 数学推导
3. 什么时候选择cluster standard errors
Athey, Abadie, Imbens and Wooldridge(2022)when should you cluster standard errors
提出,在下面两种情况下的时候,需要cluster
第一种,a sampling design reason:具体而言,当我们拿到的sample其实是整体(population)通过整群抽样(cluster sampling)得到的,而我们又想使用sample得到的分析结果来解释population的性质,此时需要使用cluster standard error,并且在哪个level进行cluster sampling的,就在这个level进行cluster。
第二种,an experimental design: causal treatment 对实验组的冲击,实验组和对照组的选择是clustered,则需选择cluster standard error。例如一项政策的treatment 对象是个体,则无需选择cluster,但如果treatment是某些village的个体,则需要在village层面进行cluster。
4. Cluster standard error与控制fixed effect的区别?
如果在city-level抽样,并且在回归中控制了城市层面的固定效应,此时还需要在city-level的cluster吗?作者给的建议是此时还是需要进行一个判断,回归使用的样本是否是cluster sampling或者assignment to treatment was clustered,若是,则还是需要进行city-level 的cluster。
参考:
https://en.wikipedia.org/wiki/Clustered_standard_errors
When should you cluster standard errors? New wisdom from the econometrics oracle