在进行线性回归时,有这样一个想法,为什么不用这样的直线,它使得每个点到直线的 距离
之和最小?
这个 距离
(点与直线在 y轴
上的距离)之和叫做 least absolute deviation
,也有人叫它 最小一乘法
:
那我们为什么不用点到直线的 垂直距离
来作为我们的最小距离呢?
最小一乘法是线性回归理解起来最直观的做法,而且拟合效果也很好,据说有实验表明,最小一乘法做的线性拟合,和靠人眼估计做的拟合非常接近。关键问题是,最小二乘法是让误差的平方和最小,这个可以用偏导数来研究,甚至只靠配方法就能直接给出最优解,所以可以给出参数的公式,虽然最小一乘法相比最小二乘估计相比有更好的 稳健性
,对异常值更不敏感
(因为平方嘛,它让较小值更小,较大值更大)但最小一乘法因为在x=0时不可导,不利于数值计算,这是它的证明:
Least Squares Fitting–Perpendicular Offsets
关于最小绝对偏差和最小二乘法的文章:
Least squares
Least absolute deviations
所以一般选择最小二乘。而最小一乘法是让误差的绝对值之和最小,数学上解决这个问题比最小二乘法复杂得多,它只是 看起来简单
:
当然这些是其他原因,最主要的原因是:正态分布模型下 BLUE( best linear unbiased estimator)