第二章结尾简单说明了估计量的方差问题,这是贯穿整个线性回归的学习过程的概念,其重要性显而易见。具体来讲,在随后对参数的统计检验中,我们使用残差代替误差来近似求得总体误差的方差,如此我们就能求得估计参数的方差,同时我们也能得到参数和误差的标准误,并利用他们进行假设检验。不过在对参数进行检验之前,我们先看看参数是如何估计出来的。
普通最小二乘法的操作和解释
不同于第二章,这里我们引入了多个自变量,对于形如:
的式子,将y移至右边,常数项移到左边,就能得到包括y的N+1个变量的方程,以下称之为N+1元方程,要注意的是y本身也属于一个变量,当我们限定了y的值后,则剩下N个变量可以自由取值,由此我们可以得出如下的结论:
将N元方程进行移项,转化为1.1式的形式,我们就等得到N-1个回归自变量,这些自变量可以自由取值,因此,N元方程的几何意义其实就是一个N-1维的超平面,例如一元方程的解集代表一个点,二元方程的解集代表一条直线,而方程组的解集显而易见地,就是这些超平面的交汇。再回到N元方程,如果我们有一个这样的方程,我们则得到一个N-1维的超平面,如果我们有两个N元方程,则得到两个N-1维超平面,如果这两个方程线性不相关,那么就能得到N-2维的交汇,例如两个平面相交形成一条直线。
由上面的分析我们便可以直观地想象出,N元回归建模实际上是对于N+1元的数据集,寻找一个N维超平面,使得每个数据点(向量)在这个N维超平面上的正弦投影的平方和最小!并且,这个平方和是一个二次函数,即存在一个最小值,为什么呢?请想象如果超平面逐渐远离数据点,那么平方和逐渐增大,;当超平面穿插在数据点中,总会存在一个位置使得平方和最小!
那么,我们如何才能找到这个超平面呢?考虑前一章OLS的一阶条件,如果误差期望均值为零,并且和自变量不相关,那么平方和最小。对此的直观理解是,如果误差和自变量相关,那么随着自变量的增大(减小),误差平方和也会增大(减小),只有当两者是不相关的(超平面随机穿插在数据点中),平方和才可能最小。
定义一个描述误差平方和的函数,自变量为未贝塔值(即超平面的位置和形状),对其中的每个变量求偏导,即寻找一个超平面,使得平方和最小,巧的是,这个偏导方程组和误差与自变量无关的公式一样! 具体如下:
对每个b_{j}求导:
同时约掉-2,便得到误差不相关假定的表达式了。对此方程组可以用矩阵运算进一步求解。
对多元回归“排除其他变量影响”的解释
考虑两个自变量的情形,β1的一种表达式是:
其中,r_i1 是利用现有样本将x1 对x2 进行简单回归而得到的OLS残差。我们将第一个自变量x1对第二个自变量x2进行回归,然后得到残差。再将y对这个残差进行简单回归就能得到β1。···残差r_i1是x1中与x2不相关的部分,···于是β1度量了在排除x2的影响后,y和x1之间的样本关系。
这个结论被称为“弗里希-沃-弗洛尔定理,上述的回归方法被称为分块回归,或偏回归。进一步地,对于二元回归的β1系数,有如下关系:
其中δ是x2对x1进行简单回归的斜率系数,可以看出如果自变量之间相关性不大,那么是否将新变量纳入模型对其他变量的估计并不大,因此在考虑纳入新变量或去除新变量时,可以先看变量间的相关系数大不大。
关于拟合优度的考虑
多元回归中R^2的计算和前一章一致,但有一点需要注意,在回归中增加一个自变量后,R2通常会增大,这个特征导致用R2作为判断是否应该在模型中加一个或几个变量的依据很不恰当。
判断一个解释变量是否应放入模型的依据应该是,这个解释变量在总体中对y的偏效应是否为零。这需要在第四章进一步探讨。
OLS估计量的期望值
下面将给出四个假定,这些都是前一章中OLS无偏假定的推广:
1、线性于参数
2、随机抽样
3、不存在完全共线性 在样本中(因而在总体中),没有 一个自变量是常数,自变量之间也不存在严格的线性关系
注意的是,假定3允许自变量之间存在相关关系,只是不能完全相关,而且如果自变量不存在任何相关,那么多元回归就没有意义了。例如观测学生成绩对家庭收入和学生支出进行回归,我们在模型中纳入家庭收入,是因为我们怀疑它和学生支出存在相关,所以我们想在分析中将它保持不变。
4、条件均值为零 当假定4成立时,这时我们具有了外生解释变量。如果出于某种原因x仍和u相关,那么x_j就被称为内生解释变量。
在上述4个假设满足时,我们认为估计值β_j 是无偏的。
模型中包含无关变量或遗漏变量
第一种情况是我们在模型中加上了一个无关变量,或者说*对模型进行了过度设定*,即一个变量在总体中对y没有影响却被放到了模型中。这时,如果模型依旧满足1-4的假定,其实多加的无关变量对已有变量的无偏性不会有影响(其实这是一个很严格的假设,因为1-4假设往往是不能严格满足的,不过在**理想**状态中,无关变量对已有变量没有影响,因为其对因变量期望的影响为零)。**但是这并不意味着添加越多的无关变量越好**,因为无关变量对估计量的方差具有不利影响,这在下一部分会详细说明。
第二种情况是我们缺失了一个总体模型中的变量,或称之为对模型设定不足。前面我们给出了公式:
说明了参数之间的关系,我们同样举二元回归的例子,如果我们遗漏变量x2,那么新得到的参数估计值和原值的差就是
这时我们可以看出,有两种情况使β1无偏,一即β2为零,但这又说明x2不应出现在总体模型中,也即我们根本没有遗漏变量;二即δ1为零。**由于δ1是x1与x2之间协方差与x1方差之比,若值为零,意味着x1和x2不相关**。由此我们得出结论:**若x1和x2不相关,则β1就是无偏估计**。并且如果β1是有偏的,我们可以根据β2和δ1的正负来确定偏误的方向,一般来讲,这两个值的正负都可以通过日常经验估计出来。
在实践中,如果我们包含了多个自变量,当遗漏总体中的变量时,一般会对所有OLS估计量产生偏误,书中给出估计偏误的方法为,若x1与x2不相关,则可估计遗漏x3的影响,其方法与上述类似,详见p78。
OLS估计量的方差
现在我们要讨论多元回归中的同方差性了,具体表述如下:
假定5 同方差性:给定任意解释变量值,误差u都具有相同的方差。
例如在方程:
中,同方差性要求,不可观测的误差方差不依赖于受教育水平、工作经历和现有任期水平。
假定1-5一起被称为横截面回归的高斯-马尔科夫假定。
现在我们可以给出参数估计值的方差了,**!关键公式!**(3.51):
其中:
是x_j 的总样本波动,而R2_j 则是将x_j 对所有其他自变量和截距项进行回归所得到的R2。
从上面公式出发,我们可以看出影响方差的因素有,误差方差、SST和R2,下面逐个进行分析:
1. 误差方差。这个因素可以这么理解:方程中的噪音越多,就会使得估计任何一个自变量对y的偏效应越困难,由于误差方差是总体属性,所以它与样本大小无关,想要减少误差方差,我们可以在模型中增加更多的解释变量。
2. 总样本波动SST。可以看出自变量的波动越大,其方差越小,因此我们通常希望样本的波动越大越好,这通常可以通过增大样本量实现。
3. 自变量之间的线性关系R2. 自变量之间线性关系的程度越高,其估计的方差越大,从式3.51中可以看出:
这种情况被称为**多重共线性**。
> 注意的是,R2接近于1并不违背假设3,在R2很大的情况下,确定方差大小还需要看另外两个参数的值。我们可以发现,小样本由于SST很小,也会造成方差偏大。
> 另需注意的是,某些自变量高度相关,对模型中其他参数的估计并不重要,如x2和x3高度相关,但对x1的方差没有直接影响。**这个结论使得我们在估计某个特定参数时,可以多加自变量而不用担心加地太多**。
误设模型中的方差
在一个模型中我们是否纳入一个变量,可以通过分析偏误和方差之间的替换关系来决定。通过上文我们发现,
若新增变量的总体参数为零,显然不加这个参数进模型更好。因为在模型中加入无关变量会使得估计参数的方差变大。
若新增变量的总体参数不为零时,不放入模型,则有偏误,放入则方差大,那到底放不放呢,好头疼啊!但考虑一下:随着样本容量逐渐变大,因增加新变量导致的方差增大就没那么重要了,因此在大样本下,我们倾向于将变量加入模型。
OLS估计量的标准误
前一章在估计一元回归中我们用残差代替误差,而在多元回归中也是用残差进行替代,不同的是这里的自由度和前一章不同。对n个观测值和k个自变量和一个截距项的模型而言,自由度为:
从而方差的无偏估计为:
从而可以计算估计参数的标准误。
另外标准误随着样本量的增大而减小
OLS的有效性:高斯-马尔科夫定理
定理:在假设1-5满足条件下,参数估计值是总体参数的最优线性无偏估计量。