目前为止,我们已经知道
Ax=b
要么有解要么无解,如果
b
不在列空间
当
b1,b2,b3
的比率是
2:3:4
时,上面的方程组才可解,也就是说只有
b
和列
尽管他们无解,可是他们在实际中经常出现,他们必须有解!一种可能是用系统的一部分来确定
对平方和求平均是最方便的:
如果存在准确解,那么最小误差
E=0
。大部分情况下,
b
和
求出
x
的值,这个模型系统
相信大家立马就认出分子中的 aTb 和分母中的 aTa 了吧(是不是像投影啊)。
推广到一般情况同样如此,求解
ax=b
就是最小化
对
E2
求导并令其等于零,求出点
x^
计算后得到 x^=(a1b1+⋯+ambm)/(a21+⋯+a2m) 。
11、对于 ax=b 这样只有一个未知变量的问题,它的最小二乘解为: x^=aTbaTa
大家可能看出来了,我们一直从几何角度解释最小二乘问题—— 最小化距离。令
E2
的导数等于零求出解,求得的结果和上篇文章的几何形式一样,连接
b,p
的误差向量
e
一定垂直于
注意退化为
a=0
的情况,这是
a
的任何倍数都是零,线仅仅就是一个点,因此
最小二乘问题
现在我们开始难一点的问题,将
b
投影到一个子空间上——而不是一条线上。这个问题来自于
再次回到了找出
x^
来最小化误差的问题,这个最小化可以用最小二乘求解,误差是
E=∥Ax−b∥
,这就是
b
到列空间中
我们可以用几何或计算来确定
x^
,在
n
维空间中,我们偏爱几何;
- 所有垂直于列空间的向量位于左零空间里,因此误差向量
e=b−Ax^
一定在
AT
的零空间里:
AT(b−Ax^)=0orATAx^=ATb
- 误差向量和
A
的每列
a1,…,an 垂直:aT1(b−Ax^)=0⋮aTn(b−Ax^)=0or⎡⎣⎢⎢aT1⋮aTn⎤⎦⎥⎥[b−Ax^]=0
图1
这两种方法殊途同归,最后都是 AT(b−Ax^)=0,ATAx^=ATb ,而计算方法是通过计算 E2=(Ax−b)T(Ax−b) 的导数,并令其等于零得 2ATAx−2ATb=0 ,最快的方式是方程 Ax=b 两边乘以 AT ,所有这些等价方法都得到一个二次系数矩阵 ATA ,它是对称的(它的转置可不是 AAT !)并且是接下来几篇文章中非常基础的矩阵。
方程 ATAx^=ATb 在统计学中叫做正规方程。
12、当 Ax=b 是矛盾的时候,它的最小二乘解就是最小化 ∥Ax−b∥2 :
我们举一个例子进行说明:
每个列最后一个元素都是零,所以
C(A)
是三维空间中的
x−y
平面,
b=(4,5,6)
的投影是
p=(4,5,0)
,
x,y
分量保持不变,但
z
分量变成零,通过求解正规方程就能证实这个结果:
在这种特殊情况,最佳方式就是求解 Ax=b 的前两个方程,得到 x^1=1,x^2=1 ,方程 0x1+0x2=6 的误差是6。
注解:假设
b
在
最近的点
p
就是
注解:考虑一个极端的情况,假设
b
与每列都垂直,那么
注解:当
A
是方阵且可逆时,列空间就是整个空间,每个向量的投影就是自身,
只有这一种情况我们可以将 (ATA)−1 分离成 A−1(AT)−1 ,当 A 是长方形矩阵时,就不能这么做。
注解:假设
矩阵 ATA
矩阵
ATA
一定是对称的,因为它的转置
(ATA)T=ATATT
,依然是
ATA
。它的第
i,j
(
j,i
) 个元素是
A
的第
两个零空间是相等的。如果
A
有无关列(零空间中只有
13、如果
A
有无关列,那么
随后我们还会指出 ATA 也是正定的(所有主元和特征值都是正的)。
到目前为止,这种情况是最常见也是最终要的,如果 m>n ,那么 m 维空间的无关性就很容易实现。
投影矩阵
我们已经说明了离
这个矩阵将任何向量
b
投影到
简单来说,有一种矩阵形式可以将
b
分成两个互相垂直的分量,
这些投影矩阵可以从代数和几何两个角度理解。
14、投影矩阵 P=A(ATA)−1AT 有两个性质:
- 矩阵等于自身的平方:
P2=P
- 矩阵等于它的转置:
PT=P
反过来讲,任何对称矩阵,如果 P2=P ,那么它表示一种投影。
证明:很容易看出来为什么
P2=P
,我们先从任意向量
b
开始,那么
为了证明
P
是对称的,我们取它的转置:
反过来,我们可以从
P2=P,PT=P
推断出
Pb
是
b
在
因此 b−Pb 和空间是正交的, Pb 是列空上的投影。
例1:假设
A
是可逆的,如果它是
单位矩阵是对称的,并且 I2=I ,误差向量 b−Ib 等于零。
拟合数据的最小二乘法
假设我们有一堆实验数据,并且期望输出
b
是输入
- 我们测量不同时刻卫星距火星的距离,我们用
t
表示时间,
b 表示时间,不考虑失去动力或重力突然增强的情况下,卫星几乎以恒定的速度 v 移动:b=b0+vt 。 - 我们在某个物体上放上不同的载荷,并测量它垂直方向产生的位移,我们用
t
表示载荷的重量,
b 表示位移大小。除非载太重使得物体彻底变形,否则的话根据弹性理论,存在一个线性关系 b=C+Dt 。 - 印制
t
本书的成本似乎也是线性关系:
b=C+Dt ,其中编辑和排版成本是 C ,印刷和装订成本是D , C 是固定的,而每印制一本书成本多D 。
如何计算
C,D
呢?如果没有实验误差,那么两次测量的
b
都会得到直线
得到的是矛盾方程组,有
m
个方程却只有两个未知量,如果误差存在的话,它将不可解。我们写成矩阵形式:
最佳解
(C^,D^)
就是最小化均方误差
E2
得到的
x^
:
向量
p=Ax^
是最接近向量
b
的,在所有的直线
例2:在图2a中有三个测量值
b1,b2,b3
:
注意
t=−1,1,2
不要求等距离。第一步是通过三个点的方程:
如果这些方程
Ax=b
可解,那么表示没有误差。但是这些点不在一条直线上,所以他们不可解,因此需要用到最小二乘求解:
最佳解就是
C^=97,D^=47
,最佳直线是
97+47t
。
图2
注意这两幅图之间的联系,问题是一样的但是呈现的效果不一样。在图2b中,
b
不是列
直线
97+47t
在
−1,1,2
处的高度分别为
57,137,177
,这些点都在之直线上,因此向量
p=(57,137,177)
在列空间里,而这个向量就是投影。图2b展示的是三维空间效果(如果有
m
个点就是
从
b
中减去
问题:如果测量结果 b=(27,−67,47) 就是误差,那么最佳直线和解 x^ 是什么呢?答案是:零,也就是水平轴, x=0^ ,投影是零。
我们总结一下拟合直线的方法,
A
的第一列包含1,第二列包含
15、给定点
t1,⋯,tm
处的测量值
b1,⋯,bm
,那么最小二乘求
E2
得到的直线
C^+D^t
为:
注解:最小二乘法不限于用直线拟合数据,在许多实验中关系不一定是线性的。假设我们有一些放射性材料,在不同时刻
t
可以通过仪器读出放射量
而实际测量中,仪器的结果存在误差,所以我们多测几次,分别在
t1,…,tm
时刻测得
b1,…,bm
,利用方程(8)近似满足:
如果记录的次数超过两次 m>2 ,那么我们可能无法求解,但是最小二乘原则将给出最佳解 C^,D^ 。
知道了 C,D 后情况就完全不同了,接下来我们就能算出衰减率 λ,μ 。这个问题就是非线性最小二乘,比线性的难一点。而我们依然是先写出 E2 ,误差的平方和,然后最小化。但是导数为零得到的不再是线性方程。
加权最小二乘
一个简单的最小二乘问题是估计两个观测值
x=b1,x=b2
的
x^
,除非
b1=b2
,否则我们面对的就是两个方程一个未知量的矛盾方程:
目前为止,我们认为
b1,b2
可靠度一样,基于此我们最小化
E2
求出
x^
的值:
最佳解就是平均值,利用 ATAx^=ATb 得到同样的结果。事实上, ATA 是 1×1 的矩阵,正规方程是 2x^=b1+b2 。
现在假设两个观测值的信任程度不一样,
x=b1
的结果比
x=b2
更加准确,但不管怎样,只要
b2
包含了信息,我们不会完全依赖
b1
,最简单的分解就是给他们分配不同的权值
w21,w22
,最下化带权重的平方和:
如果
w1>w2
,那么说明
b1
更加重要,最小化过程时会使
(x−b1)2
变小的力度加大:
结果不再是 b1,b2 的平均值,而是数据的加权平均,这个平均相比 b2 更加靠近 b1 。
一般最小二乘问题将 Ax=b 变成新系统 WAx=Wb ,这将结果 x^ 变成了 x^W ,矩阵 WTW 出现在正规方程的两边:
WAx=Wb
的最小二乘解是
x^W
:
在
b
投影到
接下里我们描述一下内积:他们来自于逆矩阵
W
。他们只涉及对称组合
对任何可逆矩阵
W
,这些规则定义了新的内积和长度:
因为
W
是可逆的,所以没有任何向量会变成零(除了零向量),所有可能的内积(线性依赖于
实际中,重要的问题是
C
的选择,最好的答案来自统计学,最早是出自高斯。我们知道平均误差是零,这是
除了不同的权重外,观测量也许是不独立的,如果误差是耦合的,那么
W
将是非对角形式,最好的非偏置矩阵
例3:假设两个牌友(已经叫牌了)在猜对方手中黑桃的个数,误差为
−1,0,1
的概率都等于
13
,那么期望误差是零,方差是
23
:
这两个人的猜测是相关的,因为叫牌是一样的,但是却不一样,这又是因为他们手中的牌不一样。如果说他们都猜大和都猜小的几率为零,相反误差的几率是
13
,那么
E(e1e2)=13(−1)
,协方差矩阵的逆是
WTW
:
这就是加权正规方程中间的矩阵。