【更新日志】
4/5/2020 对文章中公式与排版的部分错误进行修正
1. 前文回顾
在前面的文章中,我们介绍了多元线性回归模型的两种参数估计。对于模型:
y i = β 0 + ∑ j = 1 p x i j β j + ϵ i , i = 1 , . . . , N y_i= \beta_0 + \sum_{j=1}^{p} x_{ij} \beta_j + \epsilon_i , \ i=1,...,N yi=β0+j=1∑pxijβj+ϵi, i=1,...,N ϵ = ( ϵ i ) N × 1 ∼ N ( 0 , I n σ 2 ) \bm{\epsilon} = (\epsilon_i)_{N \times 1} \thicksim N(0,\bm{I_n}\sigma^2) ϵ=(ϵi)N×1∼N(0,Inσ2)
利用最小二乘估计法(OLS)得到的参数估计量为:
β ^ O L S = ( X T X ) − 1 X T y \bm{\hat\beta}_{OLS} = ( \bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{y} β^OLS=(XTX)−1XTy σ ^ O L S = 1 N − p − 1 ( y − X β ^ O L S ) T ( y − X β ^ O L S ) \bm{\hat \sigma} _{OLS} = \sqrt{ \frac {1 } {N-p-1} ( \bm{y} - \bm{X} \bm{\hat{\beta}}_{OLS} )^T ( \bm{y} -\bm{X} \bm{\hat{\beta}}_{OLS} ) } σ^OLS=N−p−11(y−Xβ^OLS)T(y−Xβ^OLS)
而利用极大似然估计法(ML)得到的参数估计量为:
β ^ M L = ( X T X ) − 1 X T y \bm{\hat\beta}_{ML} = ( \bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{y} β^ML=(XTX)−1XTy σ ^ M L = 1 N ( y − X β ^ M L ) T ( y − X β ^ M L ) \bm{\hat \sigma} _{ML} = \sqrt{ \frac { 1 } {N} ( \bm{y} - \bm{X} \bm{\hat{\beta}}_{ML} )^T ( \bm{y} - \bm{X} \bm{\hat{\beta}}_{ML} ) } σ^ML=N1(y−Xβ^ML)T(y−Xβ^ML)其中:
β = [ β 0 β 1 ⋮ β p ] ( p + 1 ) × 1 , y = [ y 0 y 1 ⋮ y N ] N × 1 , X = [ 1 x 11 … x 1 p 1 x 21 … x 2 p ⋮ ⋮ ⋱ ⋮ 1 x N 1 … x N p ] N × ( p + 1 ) \bm{\beta} = \begin{bmatrix} \beta_0 \\ \beta_1 \\ \vdots\\ \beta_p \end{bmatrix}_{(p+1) \times1}, \space \space \space \space \space \bm{y} = \begin{bmatrix} y_0 \\ y_1 \\ \vdots\\ y_N \end{bmatrix}_{N \times1}, \space \space \space \space \space \bm{X} = \begin{bmatrix} \space 1 \space\space x_{11} \space\space \dots \space\space x_{1p} \\ \space 1 \space\space x_{21} \space\space \dots \space\space x_{2p} \\ \vdots \space \space\space \space \space \vdots \space \space \space \space \space ⋱ \space \space \space \space \vdots\\ \space 1 \space\space x_{N1} \space\space \dots \space\space x_{Np} \end{bmatrix}_{N \times (p+1)} β=⎣⎢⎢⎢⎡β0β1⋮βp⎦⎥⎥⎥⎤(p+1)×1, y=⎣⎢⎢⎢⎡y0y1⋮yN⎦⎥⎥⎥⎤N×1, X=⎣⎢⎢⎢⎡ 1 x11 … x1p 1 x21 … x2p⋮ ⋮ ⋱ ⋮ 1 xN1 … xNp⎦⎥⎥⎥⎤N×(p+1)
在这两种方法中,最小二乘估计法是我们最为常用的参数估计方法,原因有二:其一,以残差平方和作为评判超平面拟合好坏的指标比较直观,也易于理解;其二,最小二乘估计参数具有良好的估计量性质。此外,以残差平方和构建代价函数(Cost Function)的方法在机器学习领域十分常见,我们会在后面的Lasso回归和Ridge回归之中继续体会其中的奥妙。
在本章中,我们来继续探索利用最小二乘估计量在性质上究竟具有什么样的优势吧~
2. 衡量参数估计量好坏的指标
由于参数估计量是总体参数的估计值,因此估计量必然与总体参数之间存在一定的“误差”。如果,我们如何衡量一个参数的估计量是好是坏呢?我们可以从以下这几个性质入手:
这里想编一个射击小游戏来说明,但是有点费脑筋,等编好了再补充上来吧。
2.1 无偏性
参数估计量的 无偏性(unbiasedness) 是指,在多次试验中,用总体的某参数估计值的平均值与该总体参数的真实值“没有偏差”。用数学语言来描述则可以表达为:若一个总体参数 β 的估计量 β^ 是无偏估计量,则该估计量应满足:
E [ β ^ ] = β E[\bm{\hat\beta}] = \bm\beta E[β^