我们以一元线性回归模型来举例说明。
y = Ax + b +ε
其中 ε 为样本(x, y)的预测误差。
自变量x,斜率A,截距b,因变量y。
假设有N个训练样本,{(a1, b1), … , (an, bn)} 可表示为平面中的N个点,我们的目标是求一条直线,最佳拟合这 N 个点。
图片来源:https://www.zhihu.com/question/37031188
选择最佳直线的标准是:总的拟合误差(总残差)最小。
计算总残差有三种方式:
1) 所有训练样本的残差和,这种方式存在正负值相互抵消的问题。
2) 所有训练样本的残差绝对值和,绝对值的计算比较麻烦。
3) 所有训练样本的残差平方和,这是最小二乘法的原则。除了计算比较方便外,得到的估计量还具有优良特性。但是这种方法对异常值非常敏感。
我们选择最小二乘法来计算总残差,最常用的是普通最小二乘法( Ordinary Least Square,OLS)。
把模型计算公式,代入最小二乘法公式得到下面的公式: