聚类调整标准误笔记

最新推荐文章于 2024-11-13 21:50:45 发布

celine0227

最新推荐文章于 2024-11-13 21:50:45 发布

阅读量1.2w

点赞数 3

分类专栏： stata 文章标签：聚类机器学习数据挖掘

本文链接：https://blog.csdn.net/celine0227/article/details/122437045

版权

stata 专栏收录该内容

29 篇文章

订阅专栏

1. 何为聚类标准误

标准误在统计推断中发挥着至关重要的作用，直接影响着系数的显著性和置信区间，并最终影响到假设检验的结论。因此，正确地估计标准误在实证分析的过程中显得尤为重要。当干扰项满足「独立同分布 (iid)」条件时， OLS 所估计的标准误是无偏的。但是当误差项之间存在相关性时，OLS 所估计的标准误是有偏的，不能很好地反映估计系数的真实变异性 (Petersen, 2009)，故需要对标准误进行调整。在多种调整标准误的方式中，「聚类调整标准误 (cluster)」是一种有效的方法 (Petersen, 2009)。

异方差问题是引起标准误变化的主要问题。

2. 标准误的作用

（1）构建 t 统计量。在进行统计推断时，需要构建 t 统计量来对单个参数进行假设检验

（2）构建置信区间。利用 β的标准误还可以构建总体参数 β的置信区间

3. 聚类调整标准误的基本思想

使用聚类方法调整标准误时，放宽了随机误差项「独立同分布」的假定，要点如下：

（1）允许组内个体的干扰项之间存在相关性；

（2）不同组之间个体的干扰项之间彼此不相关；

（3）系数估计值仍然采用 OLS 估计值，因为它是无偏的。

一维聚类调整标准误

*-截面数据，在公司层面进行聚类，以下两种写法等价
  reg y x, cluster(id) 
  reg y x, vce(cluster id)  
  
*-面板数据，在公司层面进行聚类，以下三种写法等价
  xtset id year
  xtreg y x, fe cluster(id)  
  xtreg y x, fe vce(cluster id)
  xtreg y x, fe robust  // If you specify -xtreg, fe robust-, Stata will automatically, and without even telling you, use vce(cluster panel_variable) instead. (This is true since version 13.)

*-面板数据，在省份层面进行聚类（地区层面聚类，t值偏小）
  xtset id year
  xtreg y x, fe vce(cluster prvcnm) nonest

二维聚类调整

help vce2way	 // Cameron et al. (2011), 可以估计二维SE, 支持 xtreg
webuse "nlswork.dta", clear
vce2way regress ln_wage age grade, cluster(idcode year)

2. 考虑在什么级别对标准误进行聚类

是对个体的、县的、省的还是行业的标准误进行聚类呢？