文章目录
1. 前文回顾
在上一篇文章中,我们讨论了如何对拟合的模型质量进行评判。(详情请见:【统计学习系列】多元线性回归模型(六)——模型拟合质量评判:拟合优度)。
当模型已经被拟合好,并且拟合优度也达到了预期,我们就可以进一步使用这一模型来进行样本外预测啦!在这一篇文章中,我们来看一看如何应用拟合好的模型来进行样本外预测吧~
首先,先给出总体模型的表达式:
y 0 = x 0 T β + ϵ 0 y_0 = \bm{x}_0^T \bm\beta + \epsilon_0 y0=x0Tβ+ϵ0
其中:x0 为样本外解释变量的样本值(已给定);
y0 为待预测被解释变量的真值;
β 为模型参数向量;
ϵ0 ~ N(0, σ2)为模型误差项。
2. 样本外点估计
基于OLS回归,我们已经得到了模型参数 β 的估计量 β^:
β ^ = ( X T X ) − 1 X T y \bm{\hat\beta} = ( \bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{y} β^=(XTX)−1XTy
因此,在给定一组新的输入变量(样本外变量)x0 的情况下,由模型给出的 y0 的预测值 y^0 有:
y ^ 0 = x 0 T β ^ \hat{y}_0 = \bm{x}_0^T \bm{\hat{\beta}} y^0=x0Tβ^
容易验证,y^0 是 E(y0) 的无偏估计量:
E [ y ^ 0 ] = E [ x 0 T β ^ ] = x 0 T ⋅ E [ β ^ ] = x 0 T β = E [ y 0 ] E[\hat{y}_0] = E[\bm{x}_0^T \bm{\hat\beta}] = \bm{x}_0^T \cdot E[ \bm{\hat\beta}] = \bm{x}_0^T \bm{\beta} = E[y_0] E[y^0]=E[x0Tβ^]=x0T⋅E[β^]=x0Tβ=E[y0]
3. 样本外区间估计
若想要得到 y0 的区间估计量,我们首先需要知道 y0 所满足的分布。从模型的表达式中我们容易看出,y0 是误差项 ϵ0 的 线性变换(Linear Transmission),因此,在模型假设成立的前提下,y0 也应满足正态分布。又因为正态分布由期望和方差两个指标决定,因此我们只需要计算 y0 的期望和方差即可得到 y0 的分布。
在第二章中,我们已经得到了 y0 的期望值,下面就让我们来计算 y0 的方差。
var ( y 0 ) = var ( y ^ 0 + ϵ 0 ) = var ( y ^ 0 ) + var ( ϵ 0 ) \text{var}(y_0) = \text{var}(\hat{y}_0 + \epsilon_0) = \text{var}(\hat{y}_0) +\text{var}(\epsilon_0) var(y0)=var(y^0+ϵ0)=var(y^0)+var(ϵ0)
而
var ( y ^ 0 ) = cov ( x 0 T β ^ , x 0 T β ^ ) \text{var}(\hat{y}_0) = \text{cov} ( \bm{x}_0^T \bm{\hat{\beta}} , \bm{x}_0^T \bm{\hat{\beta}} ) var(y^