最小二乘法的几何解释
这篇文章用通俗易懂的语言,从几何的角度解释了最小二乘法的解为什么是 x^=(ATA)−1ATb
线性方程组的几何意义
为了从几何的角度解释最小二乘法,我们先回顾一下,线性方程组的几何意义。线性方程组可以从行和列两个角度看。
举例,看如下简单的线性方程组:
从行的角度看
线性方程组的解就是直线
a
和直线
从图上很容易可以看出该线性方程组的解为 x1=1,x2=2 ,
所以从行的角度看,线性方程组的每一行都代表空间中的几何图形(二维时是直线,三维时是平面,高维时是高维空间中的一个”平面“),线性方程组的解就是这些图形的交点or交线or交面。
从列的角度看
从列的角度看时,先把上面的线性方程组写成矩阵的形式
这样看还不是很直观,再把上式拆开,写成下面这个样子:
怎么拆的?矩阵乘法好像不是这个样子的!放心吧,矩阵乘法就是这个样子的,只是这种写法在大学里的代几课上不常见,但矩阵乘法的意义就是这个样子的。表示 向量 a1 的 x1 倍加上向量 a2 的 x2 倍等于向量 b 。这种角度就是从列向量的角度看线性方程组。该方程的解已经从行的角度看出来了,为
很神奇对不对,向量 a1 的1倍加上向量 a2 的2倍刚好等于向量 b ,而倍数1和2,就是我们的解
从列的角度看线性方程组 Ax=b 的解,就是为系数矩阵 A 里的每一列都寻找一个合适的倍数,使每一列乘上这个倍数后再相加刚好等于向量
b ,这个倍数就是解。官方语言就是找到 A 里的列向量的一个线性组合使之等于b 。
最小二乘法
最小二乘法就是解一个无解的线性方程组
我们从一个最简单的例子开始,已知平面上有3个点(1,2),(0,2),(2,3)
我们想用一条直线去拟合它。像高中时一样,设这条直线的方程为 y=kx+b 。我们希望这条直线可以同时通过这三个点,也就是这条直线的参数要满足:
从图中直观的看,没有一条直线可以同时过这三个点,所以这个方程是无解的。怎么解一个无解的方程组呢?下面好戏开始了。为了表述方便,我们换一下符号,用 x1 表示 k ,用
写成矩阵形式:
从列的角度看:
一但化成列的形式,我们就很自然想到把向量 a1,a2,b 画到图上:
要找到解,就要找到 a1,a2 的一个线性组合,使得组合后的向量刚好等于 b 。可惜的是任何的
无解 —>解出一个最接近的解
找不到完美的解,就只能找到一个最接近的解。所以我们想在平面
S
上找一个最接近向量
原来的方程为 Ax=b 是无解的,我们用 P 代替
我们知道, P 与
要想使 P 与
把(1)带入(2)中,结果出来了, AT(b−Ax^)=0 ,化简一下就是 ATAx^=ATb ,这么简单就推出来了!所以最佳的近似解就是 x^=(ATA)−1ATb 。
这里你是否担心
ATA
不可逆?不会的,只要
A
的每一列是线性无关的,那么
从列的角度,我们就可以用 a1 和 a2 的线性组合来表示 P ,下图所示。
那么最优的直线的斜率和截距就是我们解出的k=1/2,b=11/6=1.8333。如下图。
上图既不是行的角度,也不是列的角度,它只是问题的来源,那如果从行的角度看原方程,是什么样子的,方程的每一行都是一条直线,三条直线不相交于一点,我们的解是下图中的圆点,是中间三角形的重心?质心?不知道呀,看起来有点像。
结束语
这里只是举了一个简单的不能再简单的例子来说明做小二乘法的原理。它简单到可以画出列向量的图,对于更高维的向量,列向量的图就画不出来了,但它任然存在于一个高维的空间里。公式