matlab回归分析sst_计量经济学-伍德里奇-第三章-回归-估计

最新推荐文章于 2022-02-01 19:05:54 发布

weixin_39958112

最新推荐文章于 2022-02-01 19:05:54 发布

阅读量570

点赞数

文章标签： matlab回归分析sst 伍德里奇计量经济学导论pdf

多元回归-估计yuedong.site

第二章结尾简单说明了估计量的方差问题，这是贯穿整个线性回归的学习过程的概念，其重要性显而易见。具体来讲，在随后对参数的统计检验中，我们使用残差代替误差来近似求得总体误差的方差，如此我们就能求得估计参数的方差，同时我们也能得到参数和误差的标准误，并利用他们进行假设检验。不过在对参数进行检验之前，我们先看看参数是如何估计出来的。

普通最小二乘法的操作和解释

不同于第二章，这里我们引入了多个自变量，对于形如：

的式子，将y移至右边，常数项移到左边，就能得到包括y的N+1个变量的方程，以下称之为N+1元方程，要注意的是y本身也属于一个变量，当我们限定了y的值后，则剩下N个变量可以自由取值，由此我们可以得出如下的结论：

将N元方程进行移项，转化为1.1式的形式，我们就等得到N-1个回归自变量，这些自变量可以自由取值，因此，N元方程的几何意义其实就是一个N-1维的超平面，例如一元方程的解集代表一个点，二元方程的解集代表一条直线，而方程组的解集显而易见地，就是这些超平面的交汇。再回到N元方程，如果我们有一个这样的方程，我们则得到一个N-1维的超平面，如果我们有两个N元方程，则得到两个N-1维超平面，如果这两个方程线性不相关，那么就能得到N-2维的交汇，例如两个平面相交形成一条直线。

由上面的分析我们便可以直观地想象出，N元回归建模实际上是对于N+1元的数据集，寻找一个N维超平面，使得每个数据点（向量）在这个N维超平面上的正弦投影的平方和最小！并且，这个平方和是一个二次函数，即存在一个最小值，为什么呢？请想象如果超平面逐渐远离数据点，那么平方和逐渐增大，；当超平面穿插在数据点中，总会存在一个位置使得平方和最小！

那么，我们如何才能找到这个超平面呢？考虑前一章OLS的一阶条件，如果误差期望均值为零，并且和自变量不相关，那么平方和最小。对此的直观理解是，如果误差和自变量相关，那么随着自变量的增大（减小），误差平方和也会增大（减小），只有当两者是不相关的（超平面随机穿插在数据点中），平方和才可能最小。

定义一个描述误差平方和的函数，自变量为未贝塔值(即超平面的位置和形状)，对其中的每个变量求偏导，即寻找一个超平面，使得平方和最小，巧的是，这个偏导方程组和误差与自变量无关的公式一样！具体如下：

对每个b_{j}求导：

同时约掉-2，便得到误差不相关假定的表达式了。对此方程组可以用矩阵运算进一步求解。

对多元回归“排除其他变量影响”的解释

考虑两个自变量的情形，β1的一种表达式是：

其中，r_i1 是利用现有样本将x1 对x2 进行简单回归而得到的OLS残差。我们将第一个自变量x1对第二个自变量x2进行回归，然后得到残差。再将y对这个残差进行简单回归就能得到β1。···残差r_i1是x1中与x2不相关的部分，···于是β1度量了在排除x2的影响后，y和x1之间的样本关系。

这个结论被称为“弗里希-沃-弗洛尔定理，上述的回归方法被称为分块回归，或偏回归。进一步地，对于二元回归的β1系数，有如下关系：

其中δ是x2对x1进行简单回归的斜率系数，可以看出如果自变量之间相关性不大，那么是否将新变量纳入模型对其他变量的估计并不大，因此在考虑纳入新变量或去除新变量时，可以先看变量间的相关系数大不大。

关于拟合优度的考虑

多元回归中R^2的计算和前一章一致，但有一点需要注意，在回归中增加一个自变量后，R2通常会增大，这个特征导致用R2作为判断是否应该在模型中加一个或几个变量的依据很不恰当。

判断一个解释变量是否应放入模型的依据应该是，这个解释变量在总体中对y的偏效应是否为零。这需要在第四章进一步探讨。

OLS估计量的期望值

下面将给出四个假定，这些都是前一章中OLS无偏假定的推广：

1、线性于参数

2、随机抽样

3、不存在完全共线性在样本中（因而在总体中），没有一个自变量是常数，自变量之间也不存在严格的线性关系

注意的是，假定3允许自变量之间存在相关关系，只是不能完全相关，而且如果自变量不存在任何相关，那么多元回归就没有意义了。例如观测学生成绩对家庭收入和学生支出进行回归，我们在模型中纳入家庭收入，是因为我们怀疑它和学生支出存在相关，所以我们想在分析中将它保持不变。

4、条件均值为零当假定4成立时，这时我们具有了外生解释变量。如果出于某种原因x仍和u相关，那么x_j就被称为内生解释变量。

在上述4个假设满足时，我们认为估计值β_j 是无偏的。

模型中包含无关变量或遗漏变量

第一种情况是我们在模型中加上了一个无关变量，或者说*对模型进行了过度设定*，即一个变量在总体中对y没有影响却被放到了模型中。这时，如果模型依旧满足1-4的假定，其实多加的无关变量对已有变量的无偏性不会有影响（其实这是一个很严格的假设，因为1-4假设往往是不能严格满足的，不过在**理想**状态中，无关变量对已有变量没有影响，因为其对因变量期望的影响为零）。**但是这并不意味着添加越多的无关变量越好**，因为无关变量对估计量的方差具有不利影响，这在下一部分会详细说明。

第二种情况是我们缺失了一个总体模型中的变量，或称之为对模型设定不足。前面我们给出了公式：

说明了参数之间的关系，我们同样举二元回归的例子，如果我们遗漏变量x2，那么新得到的参数估计值和原值的差就是

这时我们可以看出，有两种情况使β1无偏，一即β2为零，但这又说明x2不应出现在总体模型中，也即我们根本没有遗漏变量；二即δ1为零。**由于δ1是x1与x2之间协方差与x1方差之比，若值为零，意味着x1和x2不相关**。由此我们得出结论：**若x1和x2不相关，则β1就是无偏估计**。并且如果β1是有偏的，我们可以根据β2和δ1的正负来确定偏误的方向，一般来讲，这两个值的正负都可以通过日常经验估计出来。

在实践中，如果我们包含了多个自变量，当遗漏总体中的变量时，一般会对所有OLS估计量产生偏误，书中给出估计偏误的方法为，若x1与x2不相关，则可估计遗漏x3的影响，其方法与上述类似，详见p78。