回归分析的介绍和分类
相关性不等于因果性
回归分析要去识别和判断哪些自变量是会影响因变量的(哪些有用,哪些无用)
剩下的变量是正相关还是负相关
赋予变量权重,即不同的回归系数(量纲不相同要去量纲)
![](https://i-blog.csdnimg.cn/blog_migrate/47dc6153ecb1c99e20e18e9a0a50cd38.png)
数据分类以及数据的来源
横截面数据
在某一时间点收集的不同对象的数据 如,问卷数据,某年GDP数据 ,大一学生体测数据
时间序列数据
同一对象在不同时间连续观察取得的数据
如:从出生到现在体重数据,历年GDP数据,某地隔一小时测得温度数据
面板数据
横截面数据与时间序列数据结合起来的
如:2008-2018 各省GDP
![](https://i-blog.csdnimg.cn/blog_migrate/e1d992ddac6f22c6fb7b77ac6c2d3b01.png)
数据来源
https://bbs.pinggu.org/ 人大经济论坛(微观)
https://zhuanlan.zhihu.com/p/73901570 知乎110+数据汇总
直接在知乎上搜索 数据来源
对于线性的理解以及内生性问题的探究
一元线性回归
![](https://i-blog.csdnimg.cn/blog_migrate/7a42c6f24c37e13c3436d35f582ff1c9.png)
ui是扰动项,无法观测(就是不能当作x一样被测出来)
线性:只要能通过变量转化成线性就可以
![](https://i-blog.csdnimg.cn/blog_migrate/60dbb9b96f6744132c9606bade177b05.png)
都算线性
一个excel小技巧:下拉单元格可以用双击代替
外生性:误差项u和所有自变量x均不相关
内生性:相反 它会导致回归系数的不准确
内生性出现的原因可能是:包含了所有与y相关,但是未添加到回归模型中的变量,简称:遗漏变量
直观反映内生性的蒙特卡洛模拟
![](https://i-blog.csdnimg.cn/blog_migrate/578a25c1ac7ab9e0a607d65231b2b7d2.png)
x1与u‘越相关,k的偏差越大
实际应用中,只需要保证核心解释变量与扰动量不相关即可
核心解释变量和控制变量
回归系数的解释
![](https://i-blog.csdnimg.cn/blog_migrate/d1a80ed00d2261654c97910d5990e97b.png)
β0height一般不考虑
βmheight xmi增加一个单位对yi造成的变化
什么时候取对数?
无固定法则但是有经验
![](https://i-blog.csdnimg.cn/blog_migrate/c9df9515b06d0ee52a9c9e4c14eaeddb.png)
![](https://i-blog.csdnimg.cn/blog_migrate/5706f3094353ab969bcd49ca0b201548.png)
四类模型回归系数解释
详见讲义
特殊自变量:虚拟变量X,如性别、地域
以 研究性别对于工资的影响
![](https://i-blog.csdnimg.cn/blog_migrate/aaaa3d4456eef396b50b27a4488b45ab.png)
详见讲义
一个特殊情况,自变量中含有交互项
![](https://i-blog.csdnimg.cn/blog_migrate/ac4863c1b0b3769a61c11661e92b7d0a.png)
![](https://i-blog.csdnimg.cn/blog_migrate/c763738f9e023df467263139ac0f74a8.png)
实例
Stata操作
![](https://i-blog.csdnimg.cn/blog_migrate/f2bb40603651531afa06074a26de2ad4.png)
评价量共有846个 均值是15800.26 标准差是72869.53
![](https://i-blog.csdnimg.cn/blog_migrate/b12191a510a3e5af5c35eecf9a39f2fa.png)
双击变量窗口会直接把变量粘贴到命令窗口里
![](https://i-blog.csdnimg.cn/blog_migrate/c118ede83fab1a92d12cc8d07e203ac3.png)
保存表格
tab段位
tab变量名,gen(A)
A是虚拟变量(类似于0,1二值变量)
用regress拟合后
![](https://i-blog.csdnimg.cn/blog_migrate/49e138236e0e1a2659066a6dcc78ea03.png)
df是自由度
k是多少个自变量
SST自由度=n-1(846-1=845)
残差自由度(SSE)=n-k-1
联合显著性检验是什么意思?
k个自变量前边的回归系数是不是都为0,让p值小于0.05
若落入拒绝与那就拒绝原假设(因为如果系数小于0这个回归就没有意义)
![](https://i-blog.csdnimg.cn/blog_migrate/75e5ed836b57f2405583ea646d92a21e.png)
std是构造t检验统计量的
p1值是显著性检验里的p值(原假设H0:β1=0),表中的p值小于0.05的,都拒绝β=0的原假设
note:G4 omitted because of colliearity
在用tab将定性变量转化为定量变量(0和1)时,往往会将变量个数-1作为对照组,如果原变量数=转化后变量数,那么会出现此行提示,意思为Stata将G4作为对照变量了
![](https://i-blog.csdnimg.cn/blog_migrate/c4df9836f954f4720ece429003a3402f.png)
标准化回归系数
为了去除量纲影响
步骤:将原始数据减去均舒后除以该变量的标准差,计算得到新的变量值,将新变量构成回归方程称为标准化回归方程
标准化绝对值越大,说明对因变量的影响越大(只需要看显著的自变量,就是0.0几的(?))
![](https://i-blog.csdnimg.cn/blog_migrate/2cc041ac16da43bc057de0ce3eb1ca7c.png)
beta就是标准化回归系数
β0经过标准化后就会变为0
异方差、多重共线性、逐步回归的介绍
之前的回归分析中,默认扰动项是球型扰动项(满足同方差、无自相关)
如何解决异方差:
使用OLS+稳健的标准误(推荐)
![](https://i-blog.csdnimg.cn/blog_migrate/e1375930da13fc749e18957ba6eb5cc8.png)
广义最小二乘法
异方差检验:BP检验、怀特检验
逐步回归分析:建议用向后逐步回归
![](https://i-blog.csdnimg.cn/blog_migrate/ac08ea0ca78d23a9256b8dd53f6f7683.png)
在逐步回归的时候不能有多重共线性,要手动提出再写以上的代码