线性代数-Gilbert Strang(第二部分)

第十四课时:正交向量与子空间

结论:

  • 行空间(r)与零空间(n-r)是正交的
  • 列空间(r)与左零空间(m-r)是正交的

正交向量

  • 在n维空间中,向量之间的夹角为90度。
  • 如果 XTY=0 ,则X,Y 正交
  • 零向量与任何向量都正交

正交子空间

定义:如果子空间 S 与子空间 T 正交,那么 S 中的每个向量都和 T 中的每个向量正交

性质:如果两个子空间正交,那么他们必定不会交与某个非零向量(因为它不与自身相交),它们必定相交于零向量。

例子:

  • 行空间和零空间是将整个n维空间一分为二的两个相互正交的子空间,两个子空间的维数和为n,称为n维空间里面的正交补。这个结论可以从零空间的定义直接得出Ax=0.
  • 列空间和左零空间是将整个m维空间一分为二的两个相互正交的子空间,两个子空间的维数和为m,称为m维空间里面的正交补.

以三维空间为例,如果行空间是一维的一条直线,那么零空间就是垂直于这条直线的一个平面。例如,对于矩阵 A=[1224510] ,行空间是(1 2 5),零空间就是垂直于这个向量的平面,一组基为 501,210

Ax=b 无解的时候,应该怎么办?

A中的有些行是坏数据,一种方法是把坏数据筛选出来,直到剩下一个可逆的方阵,然后求出它的解。但这种方法不好判断。

一个更好的方法是,把方程两边同时乘以 AT ,得到 ATAx=ATb ,去求解这个好方程。

ATA 的性质:

  • Am×n 是长方矩阵,而 ATA 是 nxn 对称方阵
  • ATA 不一定可逆
  • ATA 的秩等于 A 的秩(因为 Ax=0 的解与 ATAx=(Ax)TAx=0 解相同)
  • ATA 的零空间等于 A 的零空间
  • ATA 可逆 A 的零空间只有零向量 A 的秩为n

第十五课时:子空间投影

一维向量的投影

考虑两个不共线的向量 a b ,令 p b a 上的投影, e=bp p=ax ,它在 a 的一维子空间里. 由 ae 可得: aTbax)=0 .

因此 x=aTbaTa,p=aaTaTab . 假设b 变成原来的两倍,那么投影p也变成原来的两倍,如果a 变为原来的2 倍,p 则不变。

投影矩阵:投影是由投影矩阵完成的,投影就是某个矩阵P,作用在b 上面,使我们得到了投影p,有p=Pb. 故

P=aaTaTa

投影矩阵P的性质:

  • 因为投影矩阵乘以任何向量 b 后仍旧在其列空间,因此投影矩阵的列空间 C(P) 是通过 a 的一条线,投影矩阵P的秩为1,向量a就是列空间的基
  • PT=P
  • P2=P

为什么要做投影?why project

因为 Ax=b 也许会无解,那么只能求解最接近的那个可能问题。Ax 总在A 的列空间里,那么如果将b 微调,将b 变为列空间中最接近它自己的那一个,将问题换做求解 Ax^=p=Pb ,p 是b 在列空间上的投影(列空间内最合适的右侧向量)。这就是要找最好的那个投影的原因。

三维空间的投影

要将向量b 投影在平面上得到投影向量p。得到一个使b 投影到平面上最近点的公式。已知两个线性无关的向量a1,a2 可生成平面,那么可以把这个生成的平面空间看成是矩阵的列向量,那么矩阵A=[a1 a2],误差向量e=b-p,e 是垂直于平面的。

因为p在列空间内,可得投影 p=x1a1+x2a2=Ax^ . 现在要求解 x^ ,寻找合适的线性组合,好让误差向量垂直于这个平面,关键在 e=bAx^ 。由 a1e ,且 a2e 可得:

[aT1aT2](bAx^)=[00]

也就是: AT(bAx^)=0 . 可见 e 位于A 转置的零空间(左
零空间),误差e 与列空间正交,误差 e 垂直于A 的列空间。方程可继续转换成:
ATAx^=ATb

因此:
x^pP=(ATA)1ATb=Ax^=A(ATA)1ATb=A(ATA)1AT

注意因为 A 不是方阵,不可逆,因此 A1 不存在,不能将 (ATA)1 里的括号去掉变成 A1(AT)1

投影矩阵的性质:

  • PT=P
  • P2=P

最小二乘法

当遇到太多方程,要求它的最优解,常见例子通过最小二乘法拟合一条直线。如下,横坐标是时间t,纵坐标是位置b,已知3 点,现在要找到一条最优的直线来拟合这些点,误差最小。我们要确定C 和D的大小,来得到b=C+Dt 方程。假设三个点分别为 (1,1)、(2,2)、(3,2)。那么可得:

111123[CD]=122

这个方程无解,因为这三个点不共线,但我们可以解出最优解,这个最优解不是原方程的解,是最接近的解。但可通过如下变换后方程就有解了:
ATAx^=ATb

这是最小二乘法的核心方程,虽然Ax=b无解,但如果两倍同时乘以A 转置,就得到一个有解的方程,就能求出最优解,最理想的投影以及投影矩阵。

第十六课时:投影矩阵和最小二乘(Projections matrix and Least square)

投影矩阵表达式:

P=A(ATA)1AT

特殊情况下,有如下结论:

  • 如果 bC(A)Pb=b
  • 如果 bC(A)Pb=0

一般情况下,向量b 会有一分量在列空间里,另一分量则和列空间垂直(存在于左零空间)。投影要做的就是去掉与列空间垂直分量,保留在列空间中的分量。

b 投影到两个正交的子空间中,投影到列空间 p=Pb ,投影到零空间的 e=(IP)b . P IP 都是投影矩阵,如果 P 是对称的,那 IP 也是对称的。

最小二乘,典型的应用就是拟合最优直线

找到一条最优的直线 y=C+Dt ,使得总误差最小。

A 的两个列向量线性无关,右侧 b 向量并不在A 的列空间中,无解,那么最接近的解是什么?找拥有最小误差平方和的解(用误差的平方和作为测量总误差的标准):这些误差是Ax 和 b 之间的差值,我们需要最小化它。Ax-b=e,即误差向量,是向量,即意味着要将向量e 的长度最小化.

最小二乘法的缺点是容易受到离群量的影响。

现在假设三个观测点分别对应落在直线上的三个点 p1,p2,p3 ,它们是用来替代已知的 b1,b2,b3 e1,e2,e3 分别是他们两对应点之间的距离。这样方程就有解了。方程变为:

ATAx^=ATb

如果 A的列向量线性无关,那么 ATA 就是对称可逆方阵,且是正定矩阵。将参数代进去,得到的方程称为正规方。

正规方程也可以通过对误差函数求偏导的方式得到。

用两种不同的方式,b 在两个子空间的投影和最小二乘都描述了同一个问题,b 到列空间的投影得向量p,找到了最接近b 的列向量的线性组合C 和D,C 和D 定义了最优直线,由C 和D 确定的列组合就是向量p。

命题:如果矩阵A 各列线性无关,则 ATA 是可逆矩阵。(这也是最小二乘法成立的大前提,如果不可逆方程)
证明: 只需要证明 ATAx=0 只有零解即可。 在等式两边同时乘以 xT 有: xTATAx=(Ax)TAx=0 ,即等价于 Ax=0 . 而 A 各列又是线性无关的,故 x=0 . 得证。

有一种线性无关的情况比较特别,那就是标准正交向量组。相互垂直的各列向量一定是线性无关的(零向量除外)。相互垂直的单位向量一定是线性无关的,它们称为标准正交向量组。

比如 w(cosθ,sinθ) 和 v(-sinθ,cosθ) 就是一组典型的标准正交向量(相互垂直且是单位向量)。

第十七课时:正交矩阵和正交化法

标准正交基
一组基里的向量,长度均为1,两两正交,且不和自己正交。

如果将正交基组称矩阵 Q ,那么 QTQ=I

正交矩阵(orthogonal matrix)
是一个方阵时,各列向量相互垂直,且长度为1。(之所以要求正交矩阵是方阵,是因为方阵才有逆矩阵。)

正交矩阵的性质:

QT=Q1

举例:交换单位矩阵的列即可得到正交矩阵。

阿德玛(Adhemar)矩阵:只有 1 和 -1 的正交矩阵(当然需要除以矩阵的长度进行归一化)。

正交矩阵的优点
正交矩阵的投影矩阵 P=Q(QTQ)1QT=QQT 。显然 P 是对称的,且 PT=P,P2=P

如果 Q 是方阵时, P=QQT=I 。因为Q 是方阵,且各列线性无关,那么Q的列空间就是整个空间,投影到整个空间里的投影矩阵就是I。(证明: P1=(QQT)1=(QT)1Q1=(Q1)1Q1=I ,故 P=I

对于投影方程: ATAx^=ATb ,如果 A 是标准正交基 Q ,那么可得到: x^=QTb . 那么 x^ 的分向量: x^i=qTib
即第 i 个基方向上的投影就等于 qTib .

格拉姆-施密特正交化法(Gram-Schmidt)

让列向量线性无关的矩阵正交化(向量垂直且长度为1)

已知相互无关的向量 a,b ,目标要将它们正交化为长度为1的 A,B . 方法如下:

  • 可将向量 a 固定
  • 然后 b 投影到 a 上,误差 e=baaTbaTa
  • 可验证 aTe=0
  • 分别将 a 和 e 归一化: A=aaB=ee

假设有三个向量 a,b,c,正交化得到 A,B,C。可由上已知了 A 和 B,求得 C:

C=caaTcaTabbTcbTb

一个例子:正交化向量 a=111,b=102

B=11133102=011,Q=13131301212

正交矩阵与原矩阵的关系(QR分解)

存在一个矩阵 R 满足 A=QR ,其中 R 是一个上三角矩阵

说明:因为 Q1=QT ,故 R=QTA 。左下角元素为 qT2a1 . 注意到 a1q1,q1q2 ,即 a1 q2 互相垂直,所以内积为0.

第十八课时:行列式及其性质

从这里开始,就是本课程的第二部分了,主要研究对象是方阵。

关于方阵的行列式(determinant),需要行列式的重要原因是求特征值

行列式为0 矩阵可逆 非奇异矩阵

行列式基本性质:

  • 性质1 det(I)=1
  • 性质2交换矩阵行,行列式符号会相反
    • 置换矩阵(交换行)的行列式为 1 (交换偶数次)或 -1 (交换奇数次)
    • 任何一种置换都可区分奇偶,通过7 次换行得到一种置换,同样可通过21 或23 次(奇数次)换行得到,相应也存在偶数次的置换
    • 如果通过奇数次换行得到的矩阵不可能由偶数次换行得到
  • 性质3:行列式是一个行线性函数,每一行表现为线性函数,如果其余行都保持不变。(每行独立成立的线性性质)
    • 如果第 i 的每个元素都是 t 的倍数,那么行列式可将倍数 t 提取出来。即: tactbd=tacbd
      • 如果某一行 i 由两个数字相加,那么行列式可以分解成那两个行列式的值相加. 即: a+a
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值