![9541ea4c82dd68d36cf5e0005faa945c.png](https://img-blog.csdnimg.cn/img_convert/9541ea4c82dd68d36cf5e0005faa945c.png)
承接上一章的最后一句,一元线性回归无法解决遗漏变量的问题。什么是遗漏变量?本书中运用的案例是教师数量是否与学生成绩有关(“小班教学”这一流行的认识是否真的正确?),这里教师数量是X(事实上案例用的是教师与学生的比值),学生成绩就是Y。通过样本数据,我们能得到一个一元线性回归方程,同时可以根据系数来判断教师数量与学生成绩之间的关系。但我们肯定会在常识下不禁发问:学生成绩真的是只受教师数量的影响吗?有没有可能还有比教师数量更能影响学生成绩的因素?如果这样的因素真的存在,而且无法反映在我们已经建立的一元线性回归模型中,我们就可以认为这个没有被反映出来的变量是遗漏变量。当然,一个遗漏变量的判断是有条件的,一个是与X(已有的变量)相关,一个是真正的作用到Y(学生成绩)(里面有一个可以在逻辑上成立的影响机制,比如你无法讲出银河系星星的数量与学生成绩有什么实质的关系,但是你可以讲出来学生的营养水平可能影响到他们的成绩)。
为什么要找出来遗漏变量?我就用一元回归不行吗?确实不行,因为“漏掉起决定作用的变量,且该变量与一元回归模型中的回归变量相关,则OLS估计量有遗漏变量偏差”。我们的OLS估计量可不能因为遗漏变量而有偏啊——可见,从一元回归拓展到多元回归,不仅仅是优化,更是必须。
这就是多元回归模型:
相比于一元回归,多元回归在运用OLS时有了更多的假设,也就是第四条假设:不存在完全多重共线性。完全多重共线指的是多元回归模型中两个或多个变量间存在线性关系,也就是一个变量可以被另一个变量乘以常数系数所表达。这样的话,多元回归在计算回归变量的系数时就发生了逻辑错误:你控制住了一个变量,然后又观察该变量变化时的(偏)效应。(相当于观察一个静止的物体,然后计算该物体在运动情况下的效应)。(书中还在完全多重共线的举例中提到了虚拟变量陷阱,然而我看不懂)。
多重共线似乎是一个需要避免的问题。除此之外,还存在另外一种对OLS估计理论上无害的情况:不完全多重共线性。理论上虽然无害,但是在计算中,不完全多重共线的问题会使得变量的方差变大,从而影响到系数估计的精确性。为什么呢?区别于完全多重共线中的变量间存在线性关系,不完全多重共线的意思是一个变量与另一个变量的线性表达存在相关性。举例,
“由于回归系数是用一个样本估计得到的,因此OLS估计量具有联合抽样分布,含有抽样的不确定性”。下一章的内容,就是量化这种抽样的不确定性。
图片来源:
多元宇宙的搜索结果_百度图片搜索image.baidu.com![34b115faf7b489cccd9ff0bee0f4cb3c.png](https://img-blog.csdnimg.cn/img_convert/34b115faf7b489cccd9ff0bee0f4cb3c.png)