提纲:
自变量和因变量
控制变量 (选择 多重共线性 stata检验多重公共线性)
各模型的适用条件
回归结果解读
1 自变量与因变量
1.1要知道谁是“因”谁是“果”
举例:
在一般的多元线性回归模型中,重要的自变量放前面,叫做“主要自变量”,如下图所示:
2 控制变量
2.1 关于控制变量的几个问题
2.1.1 控制变量是自变量嘛?
是
2.1.2 控制变量与主要自变量可以互换位置吗?
可以,并不影响回归结果。但是一般来说不这么做。
2.1.3 两者区别是什么?
因果关系。主要自变量是我们想要研究的,后面还要解释与Y的因果关系。而控制变量只要不影响回归结果就可以了。
2.2 如何选择控制变量?
按照自己的领域,多看前人的文献进行选择。
2.3 多重共线性
2.3.1 如果控制变量之间,存在高度相关or完美相关,即该模型存在多重共线性问题。
如果两个控制变量之间存在多重共线性问题,则该变量之前的系数就会出现误差,其实际经济意义不准确。
2.3.2 多重共线性的检验
(1)容忍性(Tolerance)
(2)方差膨胀系数(vif,variance inflation factor)
stata操作如下:
regress 因变量 自变量 进行OLS回归
estat vif 计算方差膨胀系数的指令
若回归结果vif值>10,则存在多重共线性问题。
3 如何选择模型(根据因变量Y)
先来个总结,方便大家对比记忆
3.1 几种模型及使用条件
3.1.1.y是连续变量:OLS模型
(1)注意:
(不用严格连续,如人民币单位“元”)
(误差项符合正态分布)
(2)stata指令
reg 因变量 自变量 进行OLS的回归
(3)结果解读
最后一行“cons",全称“constant",是指常数项,对应的是0。
第三列"t",看这个回归系数是否显著。
3.1.2 y是0-1变量:Logit/Probit回归
(1)注意:
假设 |
|
---|---|
Logit | logistic分布 |
Probit | 正态分布 |
一般实证中,logit使用较多。因为比较好解读。
(2)stata指令
logit 因变量 自变量
probit 因变量 自变量
3.1.3 y是分类变量:ologit或者mlogit回归
分类变量 | |
---|---|
ologit | 有序 |
mlogit回归 | 无序 |
3.1.4 y是计数变量:poisson回归(stata指令相同)
计数变量(count variable):例如,多少人、多少次、多少天
计数变量的特点:整数 非负数
各种模型使用条件已经放在本节开头⬆
4 回归结果解读(超详细)
4.1 上半部分
主要汇报:回归模型的拟合程度、一些针对模型的指标
4.1.1 左侧ÿ |