冀云阳 (广东财经大学,Dufejyy@163.com)
贺 旭 (中央财经大学)
? 连享会主页:lianxh.cn
Stata 暑期班:9天直播
? 时间:2020.7.28-8.7
? 嘉宾:连玉君 (中山大学) | 江艇 (中国人民大学)
? 主页:https://gitee.com/arlionn/PX | ? 微信版「基础不牢,地动山摇……」
- Stata 暑期研讨-初级班
- 7 月 28-30 日 (三天), 网络直播 + 3 天回放
- Stata 暑期研讨-高级班
- 8 月 1-3 日 (三天), 网络直播 + 3 天回放
- Stata 暑期研讨-论文班
- 8 月 5-7 日 (三天), 网络直播 + 3 天回放
- Stata 暑期研讨-全程班
- 7 月 28 日-8 月 7 日, 网络直播 + 9 天回放
? 强大的助教团队
这次暑期课程,我们会组织一个 30 名精英助教团队。其中,15 人为连享会往期课程中的涌现出来的优秀助教,他们有些人已经发表过《经济研究》、《管理世界》等 Top 期刊,有丰富的经验;另外 15 人则将从国内各个高校遴选,由于也是「新手」,会更清楚学员们的痛点所在。这些「助教新人」们会在开课前与「助教老手」以及授课老师们共同工作 1 个月,以便做好准备工作。我们的助教们会分成三个小组,全程为大家提供最全面、细致的答疑服务。在近几期专题课程中,我们都采用了这种「精英助教团队」模式,大大增强了大家的学习效率和自信心,诸多学员也在互动过程中结识了一批优秀的同行,相伴而行。
授课嘉宾
? 连玉君 ,西安交通大学经济学博士,中山大学岭南学院副教授,博士生导师。已在《China Economic Review》、《经济研究》、《管理世界》、《经济学(季刊)》、《金融研究》、《统计研究》等期刊发表论文 60 余篇。目前已完成 Panel VAR、Panel Threshold、Two-tier Stochastic Frontier 等计量模型的 Stata 实现程序,并编写过几十个小程序,如 winsor2
, xtbalance
, bdiff
, ua
等。连玉君老师团队一直积极分享 Stata 应用中的经验,开设了 [连享会-主页],[连享会-直播间],[连享会-知乎] 等专栏,并定期在微信公众号 (Stata连享会) 中发布精彩推文。
? 江艇,香港科技大学商学院经济学博士,中国人民大学经济学院副教授,人大国家发展与战略研究院研究员,人大微观数据与实证方法研究中心副主任,美国哥伦比亚大学商学院访问学者。主要研究领域为经济增长与发展、城市经济学、新政治经济学,在 Economics Letters、Review of Development Economics、《经济研究》、《管理世界》、《世界经济》等国内外著名学术刊物上发表多篇论文,曾应邀在多所高校讲授「应用微观计量经济学」短期前沿课程并广受好评。
目录
1. 问题背景
2. 过度识别检验
2.1 Sargan 检验
2.2 Hansen J 检验
2.3 C 统计量
3. 过度识别检验的 Stata 实现
3.1 ivreg2 命令
3.2 xtbond2 命令
4. 过度识别检验统计量无法计算
4.1 原因
4.2 解决方法
4.3 Stata 实现
参考资料
1. 问题背景
OLS 有一个经典的假设:解释变量与随机误差项不相关,即 。如果存在解释变量违背了这个假设,则估计出的参数是有偏的,也是不一致的。
工具变量 (IV) 法为解决「内生解释变量」问题提供了一种可行的方法。为此,我们需要找到满足以下条件的「外生解释变量 ()」:
- 与内生解释变量相关,即 ;
- 与随机误差项不相关,即 。
根据「内生解释变量」与「工具变量」间的数量关系,又可以分为以下几种情况:
- 不可识别 (unidentified):工具变量数小于内生解释变量数;
- 恰好识别 (just or exactly indentified):工具变量数等于内生解释变量数;
- 过度识别 (overindentified):工具变量数大于内生解释变量数。
在「恰好识别」的情况下,我们可以估计 ,而在「过度识别」的情况下,则需要通过两阶段最小二乘法 (Two Stage Least Square,2SLS 或 TSLS) 估计 。当然在「恰好识别」的情况下,我们也可以用 2SLS 进行估计。但是,在「不可识别」情况下,以上方法失效。2SLS 主要通过以下两阶段实现:
- 第一阶段,用内生解释变量对工具变量回归;
- 第二阶段,用被解释变量对第一阶段回归的拟合值回归。
值得注意, 2SLS 只有在「同方差」的情况下才是最优效率的,而在「过度识别」和「异方差」的情况下,广义矩估计 (Generalized Method of Moments, GMM) 才是最有效率的。关于 GMM 介绍详见:「Stata:GMM 简介及实现范例」和「GMM 简介与 Stata 实现」。
在使用工具变量之前,我们仍需进行若干检验:
- 解释变量内生性的检验;
- 弱工具变量检验;
- 过度识别检验。
在「恰好识别」的情况下,我们无法检验工具变量的外生性,只能进行「定性讨论或依赖专家意见」,详见「IV-估计:工具变量不外生时也可以用!」。因此,我们重点关注「过度识别检验」的方法和在 Stata 中实现。
温馨提示: 文中链接在微信中无法生效。请点击底部
2. 过度识别检验
2.1 Sargan 检验
假设共有 个解释变量 ,其中前 个解释变量 为外生解释变量,而后 个解释变量 为内生解释变量:
同时,假设共有 个方程外的工具变量 ,其中 。过度识别原假设为:
由于「扰动项 」无法观测,故只能通过 2SLS 的残差 来考察工具变量与扰动项的相关性。为此,构造以下辅助回归:
则原假设可写为:
记辅助回归的可决系数为 ,则 Sargan 统计量 (Sargan, 1958) 为:
其中,Sargan 统计量的渐进分布为 ,其自由度为 ,即为「方程外工具变量个数」减去「内生解释变量个数」。
Note:本部分内容摘自「陈强等. 计量经济学及 Stata 应用[M]. 高等教育出版社, 2015.」,详见 200 页。
2.2 Hansen J 检验
在「同方差」假设下,2SLS 是最有效率的,而在「过度识别且存在异方差」情况下,GMM 更有效率。
考虑以下原假设:
:所有工具变量都是外生的其实,这就是检验总体矩条件是否成立:
与总体矩条件 对应的样本矩条件为:
将上式看成一个联立方程组,未知参数 的维度为 ,方程个数为 个 (工具变量 的维度)。若 ,为不可识别,则 有无穷多解;若 ,为恰好识别,则 有唯一解,并等价于矩估计,进而等价于 2SLS;若 ,为过度识别, 无解。
在过度识别的情况下,Hansen (1982) 提出了一种可行的方案:虽然无法找到 使得样本矩等于 ,但总可以让样本矩尽量接近于 。为此,可以用「二次型」来衡量它到 向量的距离,如:
更一般地,可以用一个「权重矩阵 」来构造「二次型」,如:
其中,因子 不影响最小化。这是一个无约束的最优化问题,目标函数 是 的「二次型」函数,故可得到其解析解 (推导方法类似于 OLS),即 "GMM估计量"。
实际上,GMM 估计量的目标函数 就是检验统计量:
其中, 为过度识别的个数。此检验统计量称为「Hansen's J 统计量」。
Note:本部分内容摘自「陈强. 高级计量经济学及 Stata 应用[M]. 高等教育出版社, 2014.」,详见 146-150 页。同时,也参考了「工具变量法(四):GMM」。
2.3 C 统计量
如果过度识别检验拒绝了「所有工具变量都外生」的原假设,则可以怀疑部分工具变量不满足外生性。假设在 个工具变量 中,已知前 个工具变量 满足外生性,而怀疑后 个工具变量 不满足外生性,即要检验原假设 。为此,可以分别用 个工具变量 和 个工具变量 (假设能够满足至少恰好识别) 进行 GMM 估计,并分别记相应的 统计量和 统计量。如果 个工具变量 不满足外生性条件,则 值将会大大增加,进而倾向于拒绝原假设 。构造以下统计量:
其中, 统计量又称 GMM 距离 (GMM distance) 或 Sargan 差(difference-in-Sargan),自由度 为怀疑工具变量不满足外生性的个数。
Note:本部分内容参考「陈强. 高级计量经济学及 Stata 应用[M]. 高等教育出版社, 2014.」,详见 150、298-299 页。
温馨提示: 文中链接在微信中无法生效。请点击底部
3. 过度识别检验的 Stata 实现
3.1 ivreg2 命令
以官方 griliches76.dta
数据为例,lw 为工资对数,s 为受教育年限,expr 为工龄,tenure 为现单位工作年数,rns 为美国南方虚拟变量 (住在南方 = 1),smsa 为大城市虚拟变量 (住在大城市 = 1),iq