1 一元回归与多元回归
任何一本初级水平的计量经济学、统计学或机器学习相关书籍,都会详细推导多元线性线性回归的解,在这里就不再赘述。
我们给出本文用到的一些设定。 y y y为 N N N维因变量向量,假设 y = X β + ϵ y=X\beta+\epsilon y=Xβ+ϵ,如果自变量为 p p p维,将 X X X排为 N × ( p + 1 ) N\times (p+1) N×(p+1)矩阵,其中第一列 x ⋅ 0 = 1 N x_{\cdot 0}=1_N x⋅0=1N为全是 1 1 1的截距项,我们有最小二乘估计:
β ^ = ( X ′ X ) − 1 X ′ y \hat \beta = (X'X)^{-1}X'y β^=(X′X)−1X′y
如果是单变量回归,并且没有截距项的话,将自变量记为 N N N维向量 x x x, y = x ′ β y=x'\beta y=x′β中 β \beta β的最小二乘估计为
β ^ = x ′ y x ′ x \hat\beta=\dfrac{x'y}{x'x} β^=x′xx′y
二者有何联系?如果在多变量回归中, X X X的列向量相互正交即 X ′ X X'X X′X为对角矩阵,则可以得出,每个系数的估计值为 β ^ j = x ⋅ j ′ y x ⋅ j ′ x ⋅ j \hat\beta_j=\dfrac{x_{\cdot j}'y}{x_{\cdot j}'x_{\cdot j}} β^j=x⋅j′x⋅jx⋅j′y。
这给了我们一种启示,能否构造出相互正交的一些维度?
2 Gram–Schmidt过程
我们用如下过程计算 β ^ p \hat\beta_p β^p:
- z ⋅ 0 = x ⋅ 0 = 1 N z_{\cdot 0}=x_{\cdot 0}=1_N z⋅0=