提纲:
1.内生性定义?
2.什么原因会导致内生性?
3.怎么检测模型中的内生性?
4.怎么解决内生性?
一、内生性(Endogeneity)
是指自变量i与误差项
存在相关关系,即两者协方差不等于0。
因变量Y:研究的被解释变量,因果问题中的“果”
自变量x:研究的解释变量,因果关系中的“因”
误差项:回归模型中的误差,即自变量不能解释的波动部分
回归系数:通过回归估计的自变量与因变量的相关系数
思考问腿:
1.模型中有内生变量一定有问题吗?
不一定。但是在计量中,若出现内生性问题,则需要解决。
因为理论模型中经常出现内生变量。
内生变量(endogenous variable):被模型所决定的变量
外生变量(exogenous variable):不被模型所决定的已知变量
2.为什么内生性是个问题?
理由如下图:
二、什么原因会导致内生性?
(一)遗漏变量(omitted variable)
1.定义
是指模型中忽略了一个或者多个相关变量。
(需同时满足两个条件:1自变量x与遗漏变量存在相关关系2.遗漏变量是影响被解释变量Y的一个因素)如右图所示:
注意:只要是没有加入模型的变量,都是遗漏变量嘛?❌
2.为什么存在遗漏变量,就会出现内生性问题?
第一行下角标"r"是正确模型的标记;第二行的"w"下角标是错误模型的标记。
最后一张图片虚线方框中,若原模型正确,则原模型残差项与自变量X1之间的协方差为0。
3. 为什么存在遗漏变量,模型系数
会是有偏的?
(二)联立偏误(simultaneity) / 反向因果(reverse causality)
1.定义
联立偏误(simultaneity):回归模型中的一个或者多个自变量与因变量同时被决定。(双向影响)
例如,B站视频的播放量会影响点赞率,而点赞率也会影响播放量。
反向因果:因果关系颠倒
2.为什么联立偏误会导致模型产生内生性?
(三)测量偏差(measurement error/errors-in-variables)
1.定义
测量自变量时产生的误差
(若是测量因变量产生误差,则不会对结果有影响,因为在这种情况下产生的误差会被直接包含在误差项中)
2.为什么存在测量误差会导致模型产生内生性?
三、怎么检测模型中是否存在内生性?
检验的大致思路:
1.假定一个自变量x是内生变量
2.取一个外生变量Z,取值不受回归模型中x的因素影响,而且 ,Z的取值与内生变量x高度相关
3.用外生变量Z来预测内生变量X。公式如下:
此时,所有的内生关系都包含在u中。
4.两种方法
(1)
第一步,将内生变量加到原来的模型中,得到的模型如下:
其中v是外生误差项,u是内生误差项。
第二步,再检测系数2是否显著
(2)
第一步,同上
第二步
用外生部分预测x取值,如上图
因此原模型发生变化,如下图所示:
若1=
1,则自变量x并不存在内生性问题;
若1不等于
1,则自变量X存在内生性问题。
四、如何解决内生性问题?
总原则:不能根除,只能控制。
(一)工具变量
选取一个外生变量Z,取值不受回归模型中因素的影响,且Z的取值与内生变量下的取值高度相关
(类似三-4-(2)的思想)
(二)匹配法:倾向得分匹配(PSM)
使用条件:自变量是0-1变量的时候
(三)双重差分法DID
思路:针对处理行为(treatment),将样本中的个体分为两组,第一组是接受处理组,第二组是没有接触处理组。
步骤: