8 无法识别raid盘_Stata:过度识别检验一文读懂

冀云阳 (广东财经大学,Dufejyy@163.com)
贺   旭 (中央财经大学)

? 连享会主页:lianxh.cn

76e7e398cc896b33f715d045c51053dd.png
Stata 暑期班:9天直播

? 时间:2020.7.28-8.7
? 嘉宾:连玉君 (中山大学) | 江艇 (中国人民大学)
? 主页:https://gitee.com/arlionn/PX  | ? 微信版

  「基础不牢,地动山摇……」

  • Stata 暑期研讨-初级班
    • 7 月 28-30 日 (三天), 网络直播 + 3 天回放
  • Stata 暑期研讨-高级班
    • 8 月 1-3 日 (三天), 网络直播 + 3 天回放
  • Stata 暑期研讨-论文班
    • 8 月 5-7 日 (三天), 网络直播 + 3 天回放
  • Stata 暑期研讨-全程班
    • 7 月 28 日-8 月 7 日, 网络直播 + 9 天回放

? 强大的助教团队

这次暑期课程,我们会组织一个 30 名精英助教团队。其中,15 人为连享会往期课程中的涌现出来的优秀助教,他们有些人已经发表过《经济研究》、《管理世界》等 Top 期刊,有丰富的经验;另外 15 人则将从国内各个高校遴选,由于也是「新手」,会更清楚学员们的痛点所在。这些「助教新人」们会在开课前与「助教老手」以及授课老师们共同工作 1 个月,以便做好准备工作。我们的助教们会分成三个小组,全程为大家提供最全面、细致的答疑服务。在近几期专题课程中,我们都采用了这种「精英助教团队」模式,大大增强了大家的学习效率和自信心,诸多学员也在互动过程中结识了一批优秀的同行,相伴而行。

1ab1a64386408f968654415fe823f6e0.png

授课嘉宾

ac3e05af0a9aa130144d23d04ab1fbe3.png

?  连玉君 ,西安交通大学经济学博士,中山大学岭南学院副教授,博士生导师。已在《China Economic Review》、《经济研究》、《管理世界》、《经济学(季刊)》、《金融研究》、《统计研究》等期刊发表论文 60 余篇。目前已完成 Panel VAR、Panel Threshold、Two-tier Stochastic Frontier 等计量模型的 Stata 实现程序,并编写过几十个小程序,如 winsor2, xtbalance, bdiff, ua 等。连玉君老师团队一直积极分享 Stata 应用中的经验,开设了 [连享会-主页],[连享会-直播间],[连享会-知乎] 等专栏,并定期在微信公众号 (Stata连享会) 中发布精彩推文。


90ac69c2a0b290e3232362b2311537b1.png

? 江艇,香港科技大学商学院经济学博士,中国人民大学经济学院副教授,人大国家发展与战略研究院研究员,人大微观数据与实证方法研究中心副主任,美国哥伦比亚大学商学院访问学者。主要研究领域为经济增长与发展、城市经济学、新政治经济学,在 Economics LettersReview of Development Economics、《经济研究》、《管理世界》、《世界经济》等国内外著名学术刊物上发表多篇论文,曾应邀在多所高校讲授「应用微观计量经济学」短期前沿课程并广受好评。


目录

  • 1. 问题背景

  • 2.  过度识别检验

    • 2.1 Sargan 检验

    • 2.2 Hansen J 检验

    • 2.3 C 统计量

  • 3. 过度识别检验的 Stata 实现

    • 3.1 ivreg2 命令

    • 3.2 xtbond2 命令

  • 4. 过度识别检验统计量无法计算

    • 4.1 原因

    • 4.2 解决方法

    • 4.3 Stata 实现

  • 参考资料


1. 问题背景

OLS 有一个经典的假设:解释变量与随机误差项不相关,即 。如果存在解释变量违背了这个假设,则估计出的参数是有偏的,也是不一致的。

工具变量 (IV) 法为解决「内生解释变量」问题提供了一种可行的方法。为此,我们需要找到满足以下条件的「外生解释变量 ()」:

  • 与内生解释变量相关,即 ;
  • 与随机误差项不相关,即 。

根据「内生解释变量」与「工具变量」间的数量关系,又可以分为以下几种情况:

  • 不可识别 (unidentified):工具变量数小于内生解释变量数;
  • 恰好识别 (just or exactly indentified):工具变量数等于内生解释变量数;
  • 过度识别 (overindentified):工具变量数大于内生解释变量数。

在「恰好识别」的情况下,我们可以估计 ,而在「过度识别」的情况下,则需要通过两阶段最小二乘法 (Two Stage Least Square,2SLS 或 TSLS) 估计 。当然在「恰好识别」的情况下,我们也可以用 2SLS 进行估计。但是,在「不可识别」情况下,以上方法失效。2SLS 主要通过以下两阶段实现:

  • 第一阶段,用内生解释变量对工具变量回归;
  • 第二阶段,用被解释变量对第一阶段回归的拟合值回归。

值得注意, 2SLS 只有在「同方差」的情况下才是最优效率的,而在「过度识别」和「异方差」的情况下,广义矩估计 (Generalized Method of Moments, GMM) 才是最有效率的。关于 GMM 介绍详见:「Stata:GMM 简介及实现范例」和「GMM 简介与 Stata 实现」。

在使用工具变量之前,我们仍需进行若干检验:

  • 解释变量内生性的检验;
  • 弱工具变量检验;
  • 过度识别检验。

在「恰好识别」的情况下,我们无法检验工具变量的外生性,只能进行「定性讨论或依赖专家意见」,详见「IV-估计:工具变量不外生时也可以用!」。因此,我们重点关注「过度识别检验」的方法和在 Stata 中实现。

温馨提示: 文中链接在微信中无法生效。请点击底部

2.  过度识别检验

2.1 Sargan 检验

假设共有 个解释变量 ,其中前 个解释变量 为外生解释变量,而后 个解释变量 为内生解释变量:

同时,假设共有 个方程外的工具变量 ,其中 。过度识别原假设为:

由于「扰动项 」无法观测,故只能通过 2SLS 的残差 来考察工具变量与扰动项的相关性。为此,构造以下辅助回归:

则原假设可写为:

记辅助回归的可决系数为 ,则 Sargan 统计量 (Sargan, 1958) 为:

其中,Sargan 统计量的渐进分布为 ,其自由度为 ,即为「方程外工具变量个数」减去「内生解释变量个数」。

Note:本部分内容摘自「陈强等. 计量经济学及 Stata 应用[M]. 高等教育出版社, 2015.」,详见 200 页。

2.2 Hansen J 检验

在「同方差」假设下,2SLS 是最有效率的,而在「过度识别且存在异方差」情况下,GMM 更有效率。

考虑以下原假设:

:所有工具变量都是外生的

其实,这就是检验总体矩条件是否成立:

与总体矩条件 对应的样本矩条件为:

将上式看成一个联立方程组,未知参数 的维度为 ,方程个数为 个 (工具变量 的维度)。若 ,为不可识别,则 有无穷多解;若 ,为恰好识别,则 有唯一解,并等价于矩估计,进而等价于 2SLS;若 ,为过度识别, 无解。

在过度识别的情况下,Hansen (1982) 提出了一种可行的方案:虽然无法找到 使得样本矩等于 ,但总可以让样本矩尽量接近于 。为此,可以用「二次型」来衡量它到 向量的距离,如:

更一般地,可以用一个「权重矩阵 」来构造「二次型」,如:

其中,因子 不影响最小化。这是一个无约束的最优化问题,目标函数 是   的「二次型」函数,故可得到其解析解 (推导方法类似于 OLS),即 "GMM估计量"。

实际上,GMM 估计量的目标函数 就是检验统计量:

其中, 为过度识别的个数。此检验统计量称为「Hansen's J 统计量」。

Note:本部分内容摘自「陈强. 高级计量经济学及 Stata 应用[M]. 高等教育出版社, 2014.」,详见 146-150 页。同时,也参考了「工具变量法(四):GMM」。

2.3 C 统计量

如果过度识别检验拒绝了「所有工具变量都外生」的原假设,则可以怀疑部分工具变量不满足外生性。假设在 个工具变量 中,已知前 个工具变量 满足外生性,而怀疑后 个工具变量 不满足外生性,即要检验原假设 。为此,可以分别用 个工具变量 和 个工具变量 (假设能够满足至少恰好识别) 进行 GMM 估计,并分别记相应的 统计量和 统计量。如果 个工具变量 不满足外生性条件,则 值将会大大增加,进而倾向于拒绝原假设 。构造以下统计量:

其中, 统计量又称 GMM 距离 (GMM distance) 或 Sargan 差(difference-in-Sargan),自由度 为怀疑工具变量不满足外生性的个数。

Note:本部分内容参考「陈强. 高级计量经济学及 Stata 应用[M]. 高等教育出版社, 2014.」,详见 150、298-299 页。

温馨提示: 文中链接在微信中无法生效。请点击底部

3. 过度识别检验的 Stata 实现

3.1 ivreg2 命令

以官方 griliches76.dta 数据为例,lw 为工资对数,s 为受教育年限,expr 为工龄,tenure 为现单位工作年数,rns 为美国南方虚拟变量 (住在南方 = 1),smsa 为大城市虚拟变量 (住在大城市 = 1),iq

这个Stata命令看起来像是尝试执行一个混合效应模型(mixed-effects model),但似乎格式上存在问题,导致"invalid syntax"的错误。在Stata中,`mixed` 命令的结构比较复杂,特别是当涉及交互项、随机效应和固定效应时。根据提供的部分,这里可能存在一些错误: - `saverate_mean age|| _all:` 这可能是因变量(y)和自变量(x)的列表,但后面的冒号(`:`)应该是分隔符,而不是表示函数。 - `R.year|| _all:` 可能是随机效应的声明,这里的`R.year`似乎不太合理,因为`year`一般作为时间指标而不是随机因子。 - `inter*, cov(identity) nocons` 看起来是在指明固定效应的设置,`cov(identity)`指定误差项的协方差矩阵为单位矩阵,`nocons`表示没有常数项。但是,`inter*`可能是试图包含所有级别的交互项,但如果不止两个因子参与交互,则需要明确列出。 - `|| year: newvar` 似乎在固定效应中包含了另一个自变量`newvar`,与`year`交互。 - `reml` 表示使用REML( Restricted Maximum Likelihood)估计。 修复后的命令可能应该类似这样: ```stata mixed y = x1 x2 age if condition, random(R.year | subject_id) /// vce(cluster cluster_variable) /// fixed(inter1*inter2 year:newvar) /// noconstant ``` 确保所有的变量名、条件语句、随机和固定效应声明都准确无误,并且在实际应用中,你需要用具体的变量替换`y`, `x1`, `x2`, `age`, `condition`, `subject_id`, `cluster_variable`, `inter1`, `inter2`, 和 `newvar`。 如果你不确定如何配置,建议查看Stata的帮助文档或在线资源,如Stack Overflow上的相关帖子。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值