html控制变量范围,加入控制变量后结果悲催了?!

1 背景

1.1 问题的引入

两小儿辩车王小儿:我发现车越长越贵,比如,奥迪 A6L 就比 A4L 贵多了;

李小儿:那也未必,奥迪 R8 只有 4 米 4,但可以买两辆 A6L了。还有,我二爸开的那个公交车,12 米,才 30 万!

为什么车长与价格之间的关系并不'固定'?也就是说,如果用价格对车长回归,那么 R8,A6L,公交车会有显著的差异。

在大家做实证分析的最初阶段,经常会有一个困扰:原本主效应很符合预期目标,但加入了一个或几个控制变量后,主效应要么符号变了,要么不显著了。可是,关键控制变量不加入的话,审稿人必然会提出质疑。这是怎么回事了?要回答这个问题,让我们先从条件期望说起。

1.2 什么是条件期望

教育与收入的关系

春节临近,如何应对亲戚的'问候杀',是一个亟待解决的现实问题。试想,举国欢庆的日子,大家齐坐一堂,面对读硕读博归家的你,七大姑问到:'大闺女,老大不小了,该干点正事谈个对象什么的呢,读那么多书干嘛呀',你咽了咽口水'读书好啊,以后可以多挣钱孝敬您老人家',话音未落,八大姑道:'哎呀瞎说,你看隔壁二狗子,高中没读完去做生意,现在赚老多钱了'….气氛顿时尴尬了,除了咽口水外,该怎么'杠'回去…

那就要了解条件期望的概念了:条件期望函数记为 ,是关于 的函数,考虑到 是随机的,所以条件期望函数也是随机的。比如给定 为受教育水平的一个定值,如 ,那么 就是表示所有读 12 年书的个体,其收入水平的期望值。用图说明

198529015_4_20200806081147677图片1

图中,横轴表示受教育水平,纵轴则为收入,在每一个给定的受教育水平下(如:受教育年限 12 年),收入服从一个近似正态的随机分布。可以看到,由于存在着无法忽视的个体差异,使得某些低教育者的收入要高于某些高教育者的收入,但通常而言,教育水平高的人赚的更多。

看到这里,学习过初级计量经济学的同学肯定会想到,对,是'个人能力'的影响,是'个人能力'让二狗子和大闺女产生了收入的差异。确实如此,那么'个人能力'便是一个需要控制的重要变量。

2 Stata 实操

2.1 回到原例

让我们回到'小儿辩车'的引子。调入官方自带的汽车数据,研究汽车长度 length 对汽车价格 price 的影响。在多元回归中,加入的控制变量分别为里程数 mpg 和汽车重量 weight

利用外部命令 reganat (Filoso, 2013) 或 reganat2 对多元回归模型的系数进行图示:

. sysuse 'auto.dta', clear

. cap eststo clear

. eststo: reg price length

. eststo: reg price length mpg weight

. esttab, nogap

. reganat price length mpg weight, dis(length) ///

. biscat biline scheme(s2color)

198529015_5_20200806081147771图片2

虚线拟合线表示了不加入控制变量时 length 的影响,而实线是加入控制变量之后的。由之初的右上倾斜变为右下倾斜,这是一个本质性地改变。回归结果--------------------------------------------

(1) (2)

price price

--------------------------------------------

length 57.20*** -104.9**

(4.06) (-2.64)

mpg -86.79

(-1.03)

weight 4.365***

(3.74)

_cons -4584.9* 14542.4**

(-1.72) (2.47)

--------------------------------------------

N 74 74

--------------------------------------------

t statistics in parentheses

* p<0.1, ** p<0.05, *** p<0.01

对比 length 的系数可见,在一元回归时该系数显著为正(57.2),而加入控制变量后,系数为负(-104.9)并在 10% 的水平下显著。原因分析

若真实的回归模型为 ① ,若此时将 的'贡献'剔除掉之后,得到的回归模型是 ② ,此时的 = ,若 与 相关, ,出现了内生性问题。若 与 无关,是否加入 并不影响 的系数。

2.2 通过实例演示

先进行正常的多元回归,加入主效应变量 length 和控制变量 mpg  weightsysuse auto.dta, clear

reg price length mpg weight

est store m1

接着,我们利用解构回归(regression anatomy)(参考《基本无害的计量经济学》)来'解读'正常的多元回归:1.先用 length 对控制变量 mpg weight 进行回归,然后可以得到一个残差项。2. 再用被解释变量对上一步的残差项进行回归。

. reg length mpg weight

. predict e, res

. reg price e

. est store m2

. esttab m1 m2 , nogap.估计结果--------------------------------------------

(1) (2)

price price

--------------------------------------------

length -104.9***

(-2.64)

mpg -86.79

(-1.03)

weight 4.365***

(3.74)

e -104.9*

(-2.22)

_cons 14542.4* 6165.3***

(2.47) (18.46)

--------------------------------------------

N 74 74

--------------------------------------------

t statistics in parentheses

* p<0.1, ** p<0.05, *** p<0.01

可以看到,最后得到的主效应估计结果一致,均为 -104.9 。在用 length  对控制变量  mpg  weight  回归后得到的残差项,表示  length  剔除了其他解释变量对自己的影响的'结果',将其再与被解释变量的回归就是一个'净'的效应。

3 总结

可见,加入控制变量后,我们关心的估计系数是否会产生变化,取决于与控制变量之间的独立性。

我们列出将会出现的四种情形与控制变量之间完全独立,则加入控制变量对估计系数无影响(情形 1)

198529015_6_20200806081147865图片3与控制变量之间相关,且完全通过控制变量的'途径'来影响被解释变量,则估计系数不显著(情形 2)

198529015_7_20200806081147943图片4与控制变量之间高度相关,则加入控制变量后,估计系数都不显著(情形 3)

198529015_8_2020080608114821图片5与控制变量之间相关,则加入控制变量后,主要解释变量的估计系数会出现大小和符号变化。具体变化取决于与控制变量间的正负相关性。(情形4)

198529015_9_2020080608114868图片6

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值