线性回归
在多元线性回归模型中,估计回归系数使用的是OLS,并在最后讨论异方差和多重共线性对模型的影响。事实上,回归中自变量的选择大有门道,变量过多可能会导致多重共线性问题导致回归系数不显著,甚至造成OLS估计失效。
岭回归和lasso回归在OLS回归模型的损失函数上加上了不同的惩罚项,该惩罚项由回归系数的函数组成,一方面,加入的惩罚项能够识别出模型中不重要的变量,对模型起到简化作用,可以看作逐步回归法的升级版,另一方面,加入的惩罚项让模型变得可估计,即使原数据矩阵不满足列满秩。
线性回归模型
在标准线性回归中,通过最小化真实值( y i y_{i} yi)和预测值( y ^ i \hat{y}_{i} y^i)的平方误差来训练模型,这个平方误差值也被称为残差平方和(RSS, Residual Sum Of Squares):
R S S = ∑ i = 1 n ( y i − y ^ i ) 2 R S S=\sum_{i=1}^{n}\left(y_{i}-\hat{y}_{i}\right)^{2} RSS=i=1∑n(yi−y^i)2
最小二乘法即最小残差平方和,为:
J β ( β ) = arg min β ∑ i = 1 p ( y i − x i β i − β 0 ) 2 J_{\beta}(\beta)=\underset{\beta}{\arg \min } \sum_{i=1}^{p}\left(y_{i}-x_{i} \beta_{i}-\beta_{0}\right)^{2} Jβ(β)=βargmini=1∑p(yi−xiβi−β0)2
将其化为矩阵形式:
J β ( β ) = arg min β ( Y − X β ) T ( Y − X β ) J_{\beta}(\beta)=\underset{\beta}{\arg \min }(Y-X \beta)^{T}(Y-X \beta) Jβ(β)=βargmin(Y−Xβ)