sql server 一元线性回归_2.3 多元线性回归

最新推荐文章于 2022-09-14 17:06:55 发布

weixin_39619858

最新推荐文章于 2022-09-14 17:06:55 发布

阅读量448

点赞数

文章标签： sql server 一元线性回归多元线性回归matlab代码多元线性回归数据多元线性回归数据集多元线性回归模型

承接上一章的最后一句，一元线性回归无法解决遗漏变量的问题。什么是遗漏变量？本书中运用的案例是教师数量是否与学生成绩有关（“小班教学”这一流行的认识是否真的正确？），这里教师数量是X（事实上案例用的是教师与学生的比值），学生成绩就是Y。通过样本数据，我们能得到一个一元线性回归方程，同时可以根据系数来判断教师数量与学生成绩之间的关系。但我们肯定会在常识下不禁发问：学生成绩真的是只受教师数量的影响吗？有没有可能还有比教师数量更能影响学生成绩的因素？如果这样的因素真的存在，而且无法反映在我们已经建立的一元线性回归模型中，我们就可以认为这个没有被反映出来的变量是遗漏变量。当然，一个遗漏变量的判断是有条件的，一个是与X（已有的变量）相关，一个是真正的作用到Y（学生成绩）（里面有一个可以在逻辑上成立的影响机制，比如你无法讲出银河系星星的数量与学生成绩有什么实质的关系，但是你可以讲出来学生的营养水平可能影响到他们的成绩）。

为什么要找出来遗漏变量？我就用一元回归不行吗？确实不行，因为“漏掉起决定作用的变量，且该变量与一元回归模型中的回归变量相关，则OLS估计量有遗漏变量偏差”。我们的OLS估计量可不能因为遗漏变量而有偏啊——可见，从一元回归拓展到多元回归，不仅仅是优化，更是必须。

这就是多元回归模型：

。里面我就不解释了，课本上都有。系数的计算方法仍然是最小二乘。与一元回归测量拟合优度不同的是，多元回归多了调整

，也就是

。多元回归模型每加入一个变量，

就会变大，这一单一趋势使得的估计回归拟合数据d效果被夸大。为了修正该夸大，可以在

的公式(

)中增加一个逆向的系数（

），从而得到

(

)。书中指出非常重要的一点，即“过分相信

或

有可能让你掉入陷阱里，因为在现实回归应用中，‘最大化’

几乎没有任何经济或统计上的意义。”

相比于一元回归，多元回归在运用OLS时有了更多的假设，也就是第四条假设：不存在完全多重共线性。完全多重共线指的是多元回归模型中两个或多个变量间存在线性关系，也就是一个变量可以被另一个变量乘以常数系数所表达。这样的话，多元回归在计算回归变量的系数时就发生了逻辑错误：你控制住了一个变量，然后又观察该变量变化时的（偏）效应。（相当于观察一个静止的物体，然后计算该物体在运动情况下的效应）。（书中还在完全多重共线的举例中提到了虚拟变量陷阱，然而我看不懂）。

多重共线似乎是一个需要避免的问题。除此之外，还存在另外一种对OLS估计理论上无害的情况：不完全多重共线性。理论上虽然无害，但是在计算中，不完全多重共线的问题会使得变量的方差变大，从而影响到系数估计的精确性。为什么呢？区别于完全多重共线中的变量间存在线性关系，不完全多重共线的意思是一个变量与另一个变量的线性表达存在相关性。举例，

是多元回归模型中已有的变量，

是即将加入的新变量。如变量

与变量

之间存在相关性（C是常数）。回到多元回归模型中，这种相关性会反映在

的回归系数的标准误

上，即标准误会变大。标准误可以用来计算回归系数估计的置信区间——

，从这个公式就可以看出来，标准误变大，置信区间的范围也就变大，对回归系数的估计范围也就越不精确——所谓的不完全多重共线问题影响系数估计的精确性这一说法就是这样来的。

“由于回归系数是用一个样本估计得到的，因此OLS估计量具有联合抽样分布，含有抽样的不确定性”。下一章的内容，就是量化这种抽样的不确定性。

图片来源：

多元宇宙的搜索结果_百度图片搜索image.baidu.com

weixin_39619858

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
sql server 一元线性回归_2.3 多元线性回归

承接上一章的最后一句，一元线性回归无法解决遗漏变量的问题。什么是遗漏变量？本书中运用的案例是教师数量是否与学生成绩有关（“小班教学”这一流行的认识是否真的正确？），这里教师数量是X（事实上案例用的是教师与学生的比值），学生成绩就是Y。通过样本数据，我们能得到一个一元线性回归方程，同时可以根据系数来判断教师数量与学生成绩之间的关系。但我们肯定会在常识下不禁发问：学生成绩真的是只受教师数量的影响吗？有...
复制链接

扫一扫