9.多元线性回归模型

回归分析的介绍和分类

相关性不等于因果性

回归分析要去识别和判断哪些自变量是会影响因变量的(哪些有用,哪些无用

剩下的变量是正相关还是负相关

赋予变量权重,即不同的回归系数(量纲不相同要去量纲)

数据分类以及数据的来源

横截面数据

在某一时间点收集的不同对象的数据 如,问卷数据,某年GDP数据 ,大一学生体测数据

时间序列数据

同一对象不同时间连续观察取得的数据

如:从出生到现在体重数据,历年GDP数据,某地隔一小时测得温度数据

面板数据

横截面数据与时间序列数据结合起来的

如:2008-2018 各省GDP

数据来源
https://bbs.pinggu.org/ 人大经济论坛(微观)

https://zhuanlan.zhihu.com/p/73901570 知乎110+数据汇总

直接在知乎上搜索 数据来源

对于线性的理解以及内生性问题的探究

一元线性回归

ui是扰动项,无法观测(就是不能当作x一样被测出来)

线性:只要能通过变量转化成线性就可以

都算线性

一个excel小技巧:下拉单元格可以用双击代替

外生性:误差项u和所有自变量x均不相关

内生性:相反 它会导致回归系数的不准确

内生性出现的原因可能是:包含了所有与y相关,但是未添加到回归模型中的变量,简称:遗漏变量

直观反映内生性的蒙特卡洛模拟

x1与u‘越相关,k的偏差越大

实际应用中,只需要保证核心解释变量与扰动量不相关即可

核心解释变量和控制变量

回归系数的解释

β0height一般不考虑

βmheight xmi增加一个单位对yi造成的变化

什么时候取对数?

无固定法则但是有经验

四类模型回归系数解释

详见讲义

特殊自变量:虚拟变量X,如性别、地域

以 研究性别对于工资的影响

详见讲义

一个特殊情况,自变量中含有交互项

实例

Stata操作

评价量共有846个 均值是15800.26 标准差是72869.53

双击变量窗口会直接把变量粘贴到命令窗口里

保存表格

tab段位

tab变量名,gen(A)

A是虚拟变量(类似于0,1二值变量)

用regress拟合后

df是自由度

k是多少个自变量

SST自由度=n-1(846-1=845)

残差自由度(SSE)=n-k-1

联合显著性检验是什么意思?

k个自变量前边的回归系数是不是都为0,让p值小于0.05

若落入拒绝与那就拒绝原假设(因为如果系数小于0这个回归就没有意义)

std是构造t检验统计量的

p1值是显著性检验里的p值(原假设H0:β1=0),表中的p值小于0.05的,都拒绝β=0的原假设

note:G4 omitted because of colliearity

在用tab将定性变量转化为定量变量(0和1)时,往往会将变量个数-1作为对照组,如果原变量数=转化后变量数,那么会出现此行提示,意思为Stata将G4作为对照变量了

标准化回归系数

为了去除量纲影响

步骤:将原始数据减去均舒后除以该变量的标准差,计算得到新的变量值,将新变量构成回归方程称为标准化回归方程

标准化绝对值越大,说明对因变量的影响越大(只需要看显著的自变量,就是0.0几的(?))

beta就是标准化回归系数

β0经过标准化后就会变为0

异方差、多重共线性、逐步回归的介绍

之前的回归分析中,默认扰动项是球型扰动项(满足同方差、无自相关)

如何解决异方差:

使用OLS+稳健的标准误(推荐)

广义最小二乘法

异方差检验:BP检验、怀特检验

逐步回归分析:建议用向后逐步回归

在逐步回归的时候不能有多重共线性,要手动提出再写以上的代码

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值