Selection Ratio：帮你解决头疼的遗漏变量偏误

最新推荐文章于 2022-08-08 18:18:33 发布

arlionn

最新推荐文章于 2022-08-08 18:18:33 发布

阅读量3.7k

点赞数 2

分类专栏：内生性专题因果推断文章标签： Stata 内生性衡量偏误因果推断

连享会 ( lianxh.cn ) 原创，转载申请：StataChina@163.com

本文链接：https://blog.csdn.net/arlionn/article/details/108480022

版权

本文探讨了在经济学研究中如何处理选择性偏误（selection bias），特别是核心解释变量的内生性问题。文章介绍了Selection ratio的概念，这是一种衡量不可观测变量选择性偏误强度的指标，基于系数估计稳定性理论。通过Stata实际操作，展示了计算Selection ratio的步骤，并以教育回报率问题为例，说明如何利用该指标判断遗漏变量偏误对因果关系的影响。

摘要由CSDN通过智能技术生成

原文链接： https://www.lianxh.cn/news/520d9c77b7b43.html 👈

🍎 连享会推文 || 视频
扫码查看最新推文和分享

温馨提示： 定期清理浏览器缓存，可以获得最佳浏览体验。

作者： 郭楚玉 (武汉大学)
邮箱： julieguo@whu.edu.cn

编者按：本文部分内容来自于江艇老师在「连享会-2020暑期论文班」上的讲义，特此致谢！

温馨提示： 文中链接在微信中无法生效。请点击底部「阅读原文」。

0. 理论背景

核心解释变量的内生性问题似乎是实证经济学家在追寻因果关系道路上避不开的拦路石。因为经济学研究中使用的数据绝大部分都不是通过实验条件生成的随机试验结果，选择性偏误(selection bias)是经济学家们经常过招的头号顽固敌人。选择性偏误泛指任何处理组和控制组之间的系统性区别(systematic difference)。举个例子：在研究私立学校 vs.公立学校的教育回报率问题上。对全样本直接做工资对是否上私立学校的回归，相当于直接比较私立学校学生和公立学校学生，这两组学生的组间平均工资的差异。然而，这个差值并不是准确的私立学校的教育回报率。因为私立学校学生和公立学校学生之间除了所上学校不同之外(我们关注的差别)，还有很多系统性差别。比如私立学校学生，总体上平均总成绩更好，其父母收入更高，能力更综合优秀等。这些变量都是选择性变量，造成了两组人之间明显的选择性区别。

很多同学可能都知道此时应该把这些造成选择性偏误的变量控制起来！但是现实中因为数据集的限制，可能有些重要的可观测变量与核心解释变量非常相关，但我们没有数据。或者当你在回归的过程中，不断加入新的控制变量时，核心变量的系数随着新控制变量的加入而不断的减小或波动，此时你很可能会担忧，在没有数据限制下，还有更多的额外控制变量可供我们选择加入的话，我所探究和关心的因果关系是否还存在呢？此外，我们能控制的都是可观测变量 (selection on observed variables)，那不可观测变量的选择性 (selection on unobserved varaibles) 如何排除呢？

Selection ratio 指标可以帮助我们来判别不可观测变量选择性偏误的强度！这背后的原理是系数估计稳定性理论。系数估计稳定性理论讲的是在控制了关键控制变量之后，新加入的控制变量与核心解释变量的残余相关性比较小，从而使得系数估计比较稳定。倘若研究中还存在遗漏的(不可观测的、没办法控制的)选择性变量的话，我们有理由相信，这些遗漏的选择性变量和核心解释变量之间的残余相关性也会比较小。所以即使不控制也不会影响我的系数估计。这样的推断有一个逻辑上的跳跃，这其实是一种间接检验的思想。即，系数估计稳定性理论的本质是用可观测变量的选择性去推断不可观测变量的选择性。即控制了关键控制变量以后，额外的可观测控制变量还能纠正系数估计的程度，去推断遗漏变量还能抵消掉的因果效果的程度。

1. Selection ratio 的基本原理

Selectio ratio 最初是由 Altonji, Elder & Taber (2005) 三人提出的。他们在这篇文章中构造了这个不可观测变量的选择性偏误强度的测量指标。具体构造过程如下：

$\begin{aligned} Y =& \beta D+W^{\prime} \Gamma \\ =& \beta D+X^{\prime} \Gamma_{X}+\xi \\ =& \beta D+X^{\prime} \gamma+\varepsilon (1) \end{aligned}$

$D$ 为核心解释变量， $W$ 包含了除 $D$ 之外所有会影响 $Y$ 的变量。(1)式的第二行，将 $W$ 分成可观测的部分 $X$ 和不可观测的 $\xi$ 。第三行，将 $X$ 与 $\xi$ 的相关性包含在 $\gamma$ 中，使得 $\operatorname{cov}(X, \varepsilon)=0$ 。此时， $\gamma$ 既包含了 $X$ 与 $Y$ 的直接效应 $\Gamma_{X}$ ，也包含了 $X$ 与 $\xi$ 之间的相关性。