线性代数-MIT 18.06-3

本文深入探讨了矩阵空间的概念,包括3×33×3矩阵空间的基向量,并介绍了秩1矩阵的定义和性质。此外,文章还结合图论讲解了微分方程和电势差在树状图中的应用,以及如何利用矩阵的秩和零空间来理解图的欧拉公式。同时,讨论了矩阵的线性相关性和正交子空间,最后介绍了最小二乘法在拟合直线问题中的应用。
摘要由CSDN通过智能技术生成


本文在学习《麻省理工公开课 线性代数 MIT 18.06 Linear Algebra》总结反思形成

视频链接:MIT-B站视频

笔记部分:总结参考子实

11.矩阵空间、秩1矩阵和小世界图

矩阵空间

3 × 3 3 \times 3 3×3矩阵空间记为 M M M

M M M的一组基为:
[ 1 0 0 0 0 0 0 0 0 ] [ 0 1 0 0 0 0 0 0 0 ] [ 0 0 1 0 0 0 0 0 0 ] [ 0 0 0 1 0 0 0 0 0 ] [ 0 0 0 0 1 0 0 0 0 ] [ 0 0 0 0 0 1 0 0 0 ] [ 0 0 0 0 0 0 1 0 0 ] [ 0 0 0 0 0 0 0 1 0 ] [ 0 0 0 0 0 0 0 0 1 ] \begin{bmatrix} 1 & 0 & 0 \\ 0 & 0 & 0 \\ 0 & 0 & 0 \\ \end{bmatrix} \begin{bmatrix} 0 & 1 & 0 \\ 0 & 0 & 0 \\ 0 & 0 & 0 \\ \end{bmatrix} \begin{bmatrix} 0 & 0 & 1 \\ 0 & 0 & 0 \\ 0 & 0 & 0 \\ \end{bmatrix} \\ \begin{bmatrix} 0 & 0 & 0 \\ 1 & 0 & 0 \\ 0 & 0 & 0 \\ \end{bmatrix} \begin{bmatrix} 0 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 0 \\ \end{bmatrix} \begin{bmatrix} 0 & 0 & 0 \\ 0 & 0 & 1 \\ 0 & 0 & 0 \\ \end{bmatrix} \\ \begin{bmatrix} 0 & 0 & 0 \\ 0 & 0 & 0 \\ 1 & 0 & 0 \\ \end{bmatrix} \begin{bmatrix} 0 & 0 & 0 \\ 0 & 0 & 0 \\ 0 & 1 & 0 \\ \end{bmatrix} \begin{bmatrix} 0 & 0 & 0 \\ 0 & 0 & 0 \\ 0 & 0 & 1 \\ \end{bmatrix} \\ 100000000000100000000000100010000000000010000000000010001000000000001000000000001

易得, d i m M = 9 dim M=9 dimM=9

  • 三阶对称矩阵空间有 d i m S = 6 dim S=6 dimS=6
  • 上三角矩阵空间有 d i m U = 6 dim U=6 dimU=6
  • 对角矩阵空间有 d i m D = 3 dim D=3 dimD=3
重要结论
  • 求并(intersect): S ∪ U = D , d i m ( S ∪ U ) = 9 S \cup U=D, dim(S \cup U)=9 SU=D,dim(SU)=9

  • 求交(sum): S ∩ U = M , d i m ( S ∩ U ) = 3 S \cap U=M, dim(S \cap U)=3 SU=M,dim(SU)=3

可以看出: d i m S + d i m U = d i m ( S ∪ U ) + d i m ( S ∩ U ) dim S + dim U=dim(S \cup U) + dim(S \cap U) dimS+dimU=dim(SU)+dim(SU)

微分方程

d 2 y d x 2 + y = 0 \frac{d^2y}{dx^2}+y=0 dx2d2y+y=0,即 y ′ ′ + y = 0 y''+y=0 y+y=0

方程的解有: y = cos ⁡ x , y = sin ⁡ x , y = e i x , y = e − i x y=\cos{x}, \quad y=\sin{x}, \quad y=e^{ix}, \quad y=e^{-ix} y=cosx,y=sinx,y=eix,y=eix等等( e i x = cos ⁡ x + i sin ⁡ x , e − i x = cos ⁡ x − i sin ⁡ x e^{ix}=\cos{x}+i\sin{x}, \quad e^{-ix}=\cos{x}-i\sin{x} eix=cosx+isinx,eix=cosxisinx

而该方程的所有解: y = c 1 cos ⁡ x + c 2 sin ⁡ x y=c_1 \cos{x} + c_2 \sin{x} y=c1cosx+c2sinx

所以,该方程的零空间的一组基为 cos ⁡ x , sin ⁡ x \cos{x}, \sin{x} cosx,sinx,零空间的维数为 2 2 2。同理 e i x , e − i x e^{ix}, e^{-ix} eix,eix可以作为另一组基。

秩1矩阵

定义

2 × 3 2 \times 3 2×3矩阵 A = [ 1 4 5 2 8 10 ] = [ 1 2 ] [ 1 4 5 ] A=\begin{bmatrix}1&4&5\\2&8&10\end{bmatrix}=\begin{bmatrix}1\\2\end{bmatrix}\begin{bmatrix}1&4&5\end{bmatrix} A=[1248510]=[12][145]

d i m C ( A ) = 1 = d i m C ( A T ) dimC(A)=1=dimC(A^T) dimC(A)=1=dimC(AT)所有的秩一矩阵都可以划为 A = U V T A=UV^T A=UVT的形式,这里的 U , V U, V U,V均为列向量。

性质
  • 秩一矩阵类似“积木”,可以搭建任何矩阵,如对于一个 5 × 17 5 \times 17 5×17秩为 4 4 4的矩阵,只需要 4 4 4个秩一矩阵就可以组合出来。

  • M M M代表所有 5 × 17 5 \times 17 5×17 M M M中所有秩 4 4 4矩阵组成的集合并不是一个子空间

  • 通常两个秩四矩阵相加,其结果并不是秩四矩阵。

案例

R 4 \mathbb{R}^4 R4空间中有向量 v = [ v 1 v 2 v 3 v 4 ] v=\begin{bmatrix}v_1\\v_2\\v_3\\v_4\end{bmatrix} v=v1v2v3v4,取 R 4 \mathbb{R}^4 R4中满足 v 1 + v 2 + v 3 + v 4 = 0 v_1+v_2+v_3+v_4=0 v1+v2+v3+v4=0的所有向量组成一个向量空间 S S S,则 S S S是一个向量子空间。

易看出,不论是使用系数乘以该向量,或是用两个满足条件的向量相加,其结果仍然落在分量和为零的向量空间中。

S S S的维数?

解:从另一个角度看, v 1 + v 2 + v 3 + v 4 = 0 v_1+v_2+v_3+v_4=0 v1+v2+v3+v4=0等价于 [ 1 1 1 1 ] [ v 1 v 2 v 3 v 4 ] = 0 \begin{bmatrix}1&1&1&1\end{bmatrix}\begin{bmatrix}v_1\\v_2\\v_3\\v_4\end{bmatrix}=0 [1111]v1v2v3v4=0,则 S S S就是 A = [ 1 1 1 1 ] A=\begin{bmatrix}1&1&1&1\end{bmatrix} A=[1111]的零空间。

r a n k ( A ) = 1 rank(A)=1 rank(A)=1,则对其零空间有 r a n k ( N ( A ) ) = n − r = 3 = d i m N ( A ) rank(N(A))=n-r=3=dim N(A) rank(N(A))=nr=3=dimN(A),则 S S S的维数是 3 3 3

四个子空间(复习)

顺便复习 1 × 4 1 \times 4 1×4矩阵 A A A的四个基本子空间:

行空间: d i m C ( A T ) = 1 dim C(A^T)=1 dimC(AT)=1,其中的一组基是 [ 1 1 1 1 ] \begin{bmatrix}1\\1\\1\\1\end{bmatrix} 1111

零空间: d i m N ( A ) = 3 dim N(A)=3 dimN(A)=3,其中的一组基是 [ − 1 1 0 0 ] [ − 1 0 1 0 ] [ − 1 0 0 1 ] \begin{bmatrix}-1\\1\\0\\0\end{bmatrix}\begin{bmatrix}-1\\0\\1\\0\end{bmatrix}\begin{bmatrix}-1\\0\\0\\1\end{bmatrix} 110010101001

列空间: d i m C ( A ) = 1 dim C(A)=1 dimC(A)=1,其中一组基是 [ 1 ] \begin{bmatrix}1\end{bmatrix} [1],可以看出列空间就是整个 R 1 \mathbb{R}^1 R1空间。

左零空间: d i m N ( A T ) = 0 dim N(A^T)=0 dimN(AT)=0,因为 A A A转置后没有非零的 v v v可以使 A v = 0 Av=0 Av=0成立,就是 [ 0 ] \begin{bmatrix}0\end{bmatrix} [0]

综上, d i m C ( A T ) + d i m N ( A ) = 4 = n , d i m C ( A ) + d i m N ( A T ) = 1 = m dim C(A^T)+dim N(A)=4=n, dim C(A)+dim N(A^T)=1=m dimC(AT)+dimN(A)=4=n,dimC(A)+dimN(AT)=1=m

  1. 图(graph)由节点(node)与边(edge)组成。

  2. 六度分隔理论(略)——所以世界很小(小世界图的名字来源)

12.图和网络

知识小结
  1. 无电源情况下:
  • 将电势记为 e e e,则在引入电势的第一步中,有 e = A x e=Ax e=Ax
  • 电势差导致电流产生, y = C e y=Ce y=Ce
  • 电流满足基尔霍夫定律方程, A T y = 0 A^Ty=0 ATy=0
  1. 有电源情况下:

电源可以通过:在边上加电池(电压源),或在节点上加外部电流 两种方式接入。

  • 如果在边上加电池,会体现在 e = A x e=Ax e=Ax中;
  • 如果在节点上加电流,会体现在 A T y = f A^Ty=f ATy=f中, f f f向量就是外部电流。
  1. 平衡方程(统一考虑):
  • 将以上三个等式连起来得到 A T C A x = f A^TCAx=f ATCAx=f
  • 方程仅描述平衡状态,方程并不考虑时间。
  1. 没有回路的图也叫作树(Tree)
图和网络(电势阐述)

image-20220213174950979

  1. 建立 5 × 4 5 \times 4 5×4矩阵描述该图(就是引入电势)
    A = [ − 1 1 0 0 0 − 1 1 0 − 1 0 1 0 − 1 0 0 1 0 0 − 1 1 ] A=\begin{bmatrix} -1 & 1 & 0 & 0 \\ 0 & -1 & 1 & 0 \\ -1 & 0 & 1 & 0 \\ -1 & 0 & 0 & 1 \\ 0 & 0 & -1 & 1 \\ \end{bmatrix} A=10110110000110100011

观察前三行,易看出这三个行向量线性相关,也就是这三个向量可以形成回路(loop) 线 性 相 关 < = > 回 路 线性相关<=>回路 线<=>;

  1. 现在研究 A x = 0 Ax=0 Ax=0(就是研究等电势):
    A x = [ − 1 1 0 0 0 − 1 1 0 − 1 0 1 0 − 1 0 0 1 0 0 − 1 1 ] [ x 1 x 2 x 3 x 4 ] Ax=\begin{bmatrix} -1 & 1 & 0 & 0 \\ 0 & -1 & 1 & 0 \\ -1 & 0 & 1 & 0 \\ -1 & 0 & 0 & 1 \\ 0 & 0 & -1 & 1 \\ \end{bmatrix} \begin{bmatrix} x_1\\x_2\\x_3\\x_4\\ \end{bmatrix} Ax=10110110000110100011x1x2x3x4

    展开得到:
    [ x 2 − x 1 x 3 − x 2 x 3 − x 1 x 4 − x 1 x 4 − x 3 ] = [ 0 0 0 0 0 ] \begin{bmatrix}x_2-x_1 \\x_3-x_2 \\x_3-x_1 \\x_4-x_1 \\x_4-x_3 \\ \end{bmatrix}=\begin{bmatrix}0\\0\\0\\0\\0\\ \end{bmatrix} x2x1x3x2x3x1x4x1x4x3=00000

  • 引入矩阵的实际意义:将 x = [ x 1 x 2 x 3 x 4 ] x=\begin{bmatrix}x_1 & x_2 & x_3 & x_4\end{bmatrix} x=[x1x2x3x4]设为各节点电势(Potential at the Nodes)。
  • 则式子中的诸如 x 2 − x 1 x_2-x_1 x2x1的元素,可以看做该边上的电势差(Potential Differences)。
  • 其零空间的物理意义为,当电位相等时,不存在电势差,图中无电流。
应用数学

现在研究 A T y = 0 A^Ty=0 ATy=0(应用数学里常用公式):

A T y = 0 = [ − 1 0 − 1 − 1 0 1 − 1 0 0 0 0 1 1 0 − 1 0 0 0 1 1 ] [ y 1 y 2 y 3 y 4 y 5 ] = [ 0 0 0 0 ] A^Ty=0=\begin{bmatrix}-1 & 0 & -1 & -1 & 0 \\1 & -1 & 0 & 0 & 0 \\0 & 1 & 1 & 0 & -1 \\0 & 0 & 0 & 1 & 1 \\ \end{bmatrix}\begin{bmatrix}y_1\\y_2\\y_3\\y_4\\y_5\end{bmatrix}=\begin{bmatrix}0\\0\\0\\0\end{bmatrix} ATy=0=11000110101010010011y1y2y3y4y5=0000

对于转置矩阵有 d i m N ( A T ) = m − r = 5 − 3 = 2 dim N(A^T)=m-r=5-3=2 dimN(AT)=mr=53=2

A T y = 0 A^Ty=0 ATy=0的一种应用含义叫做“基尔霍夫电流定律”(Kirchoff’s Law, 简称KCL)。

矩阵 C C C将电势差与电流联系起来,电流与电势差的关系服从欧姆定律:边上的电流值是电势差的倍数,这个倍数就是边的电导(conductance)即电阻(resistance)的倒数。
电 势 差 → 欧 姆 定 律 矩 阵 C 各 边 上 的 电 流 y 1 , y 2 , y 3 , y 4 , y 5 电势差 \xrightarrow[欧姆定律]{矩阵C} 各边上的电流y_1, y_2, y_3, y_4, y_5 C y1,y2,y3,y4,y5
A T y = 0 A^Ty=0 ATy=0中的方程列出来:
{ y 1 + y 3 + y 4 = 0 y 1 − y 2 = 0 y 2 + y 3 − y 5 = 0 y 4 − y 5 = 0 \left\{ \begin{aligned} y_1 + y_3 + y_4 &= 0 \\ y_1 - y_2 &= 0 \\ y_2 + y_3 - y_5 &= 0 \\ y_4 - y_5 &= 0 \\ \end{aligned} \right. y1+y3+y4y1y2y2+y3y5y4y5=0=0=0=0

A T y = 0 A^Ty=0 ATy=0的第一个方程, − y 1 − y 3 − y 4 = 0 -y_1-y_3-y_4=0 y1y3y4=0,可以看出这个方程是关于节点 1 1 1上的电流的,方程指出节点 1 1 1上的电流和为零

基尔霍夫定律是一个平衡方程、守恒定律,它说明了流入等于流出,电荷不会在节点上累积。

矩阵的线性相关证明图的欧拉公式
  • A T A^T AT的对应列向量线性无关,也就是节点数减1( r a n k = n o d e s − 1 rank=nodes-1 rank=nodes1)条边线性无关。

  • 再看左零空间的维数公式: d i m N ( A T ) = m − r dim N(A^T)=m-r dimN(AT)=mr,左零空间的维数就是相互无关的回路的数量。

  • 所以 l o o p s = e d g e s − ( n o d e s − 1 ) loops=edges-(nodes-1) loops=edges(nodes1)

  • 整理得著名的欧拉公式(任何图都有此拓扑性质):

n o d e s − e d g e s + l o o p s = 1 nodes-edges+loops=1 nodesedges+loops=1

零 维 ( 节 点 ) − 一 维 ( 边 ) + 二 维 ( 回 路 ) = 1 零维(节点)-一维(边)+二维(回路)=1 +=1

13.复习

复习为习题课,题目比较简单(略)

  1. 如果 B 2 = 0 B^2=0 B2=0,并不能得出 B = 0 B=0 B=0,反例: [ 0 1 0 0 ] \begin{bmatrix}0 & 1\\ 0 & 0\\ \end{bmatrix} [0010]这个矩阵经常会被用作反例

  2. 问:已知
    B = [ 1 1 0 0 1 0 1 0 1 ] [ 1 0 − 1 2 0 1 1 − 1 0 0 0 0 ] B= \begin{bmatrix} 1 & 1 & 0 \\ 0 & 1 & 0 \\ 1 & 0 & 1 \\ \end{bmatrix} \begin{bmatrix} 1 & 0 & -1 & 2 \\ 0 & 1 & 1 & -1 \\ 0 & 0 & 0 & 0 \\ \end{bmatrix} B=101110001100010110210,在不解出 B B B的情况下,求 B B B的零空间。

    解:可以观察得出前一个矩阵是可逆矩阵,设 B = C D B=CD B=CD,则求零空间 B x = 0 , C D x = 0 Bx=0, CDx=0 Bx=0,CDx=0,而 C C C是可逆矩阵,则等式两侧同时乘以 C − 1 C^{-1} C1 C − 1 C D x = D x = 0 C^{-1}CDx=Dx=0 C1CDx=Dx=0,所以当 C C C为可逆矩阵时,有 N ( C D ) = N ( D ) N(CD)=N(D) N(CD)=N(D),即左乘逆矩阵不会改变零空间。

    本题转化为求 D D D的零空间, N ( B ) N(B) N(B)的基为
    [ − F I ] \begin{bmatrix}-F\\I\\ \end{bmatrix} [FI],也就是 [ 1 − 1 1 0 ] [ − 2 1 0 1 ] \begin{bmatrix}1\\-1\\1\\0 \end{bmatrix}\quad\begin{bmatrix}-2\\1\\0\\1\end{bmatrix} 11102101

  3. 如果 A , B A, B A,B的四个基本子空间相同,则 A , B A, B A,B互为倍数关系。

    不成立,**反例:**如任意两个 n n n阶可逆矩阵,他们的列空间、行空间均为 R n \mathbb{R}^n Rn,他们的零空间、左零空间都只有零向量,所以他们的四个基本子空间相同,但是并不一定具有倍数关系。

  4. 衔接题:

为什么向量 v = [ 1 2 3 ] v=\begin{bmatrix}1\\2\\3 \end{bmatrix} v=123不能同时出现在矩阵的行空间与零空间中?令 A [ 1 2 3 ] = [ 0 0 0 ] A\begin{bmatrix}1\\2\\3 \end{bmatrix}=\begin{bmatrix}0\\0\\0 \end{bmatrix} A123=000,很明显矩阵 A A A中不能出现值为 [ 1 2 3 ] \begin{bmatrix}1 & 2 & 3 \end{bmatrix} [123]的行向量,否则无法形成等式右侧的零向量。这里引入正交(perpendicular)的概念

  • 矩阵的行空间与零空间正交,它们仅共享零向量。

14.正交向量与子空间

毕达哥拉斯定理和正交

对于向量 x , y x, y x,y,当 x T ⋅ y = 0 x^T \cdot y=0 xTy=0 x 1 y 1 + x 2 y x + ⋯ + x n y n = 0 x_1y_1+x_2y_x+\cdots+x_ny_n=0 x1y1+x2yx++xnyn=0时,有向量 x , y x, y x,y正交(vector orthogonal)。

毕达哥拉斯定理(Pythagorean theorem)中提到,直角三角形的三条边满足:

∥ x → ∥ 2 + ∥ y → ∥ 2 = ∥ x + y → ∥ 2 x T x + y T y = ( x + y ) T ( x + y ) x T x + y T y = x T x + y T y + x T y + y T x 0 = x T y + y T x 对 于 向 量 点 乘 , x T y = y T x 0 = 2 x T y x T y = 0 \begin{aligned} \left\|\overrightarrow{x}\right\|^2+\left\|\overrightarrow{y}\right\|^2 &= \left\|\overrightarrow{x+y}\right\|^2 \\ x^Tx+y^Ty &= (x+y)^T(x+y) \\ x^Tx+y^Ty &= x^Tx+y^Ty+x^Ty+y^Tx \\ 0 &= x^Ty+y^Tx \qquad 对于向量点乘,x^Ty=y^Tx \\ 0 &= 2x^Ty \\ x^Ty &=0 \end{aligned} x 2+y 2xTx+yTyxTx+yTy00xTy=x+y 2=(x+y)T(x+y)=xTx+yTy+xTy+yTx=xTy+yTxxTy=yTx=2xTy=0

由此得出,两正交向量的点积为 0 0 0。另外, x , y x, y x,y可以为 0 0 0向量,由于 0 0 0向量与任意向量的点积均为零,所以 0 0 0向量与任意向量正交。

若两个子空间正交,则它们一定不会相交于某个非零向量。

子空间与正交

其行空间( d i m C ( A T ) = r dim C(A^T)=r dimC(AT)=r)与零空间( d i m N ( A ) = n − r dim N(A)=n-r dimN(A)=nr)同属于 R n \mathbb{R}^n Rn空间,正交?

其列空间( d i m C ( A ) = r dim C(A)=r dimC(A)=r)与左零空间( d i m N ( A T ) dim N(A^T) dimN(AT)=m-r)同属于 R m \mathbb{R}^m Rm空间,正交?

行空间与零空间将 R n \mathbb{R}^n Rn分割为两个正交的子空间,证明略

同样的,列空间与左零空间将 R m \mathbb{R}^m Rm分割为两个正交的子空间。

补充一点,我们把行空间与零空间称为 n n n维空间里的正交补(orthogonal complement),即零空间包含了所有与行空间正交的向量;

同理列空间与左零空间为 m m m维空间里的正交补,即左零空间包含了所有与零空间正交的向量。

坏方程->好方程

接下来看长方矩阵, m > n m>n m>n。对于这种矩阵, A x = b Ax=b Ax=b中经常混入一些包含“坏数据”的方程

于是,我们引入一个重要的矩阵: A T A A^TA ATA。这是一个 n × m n \times m n×m矩阵点乘 m × n m \times n m×n矩阵,其结果是一个 n × n n \times n n×n矩阵,应该注意的是,这也是一个对称矩阵,证明如下:

( A T A ) T = A T ( A T ) T = A T A (A^TA)^T=A^T(A^T)^T=A^TA (ATA)T=AT(AT)T=ATA

这一章节的核心就是 A T A x = A T b A^TAx=A^Tb ATAx=ATb,这个变换可以将“坏方程组”变为“好方程组”。

举例,有 [ 1 1 1 2 1 5 ] [ x 1 x 2 ] = [ b 1 b 2 b 3 ] \begin{bmatrix}1&1\\1&2\\1&5\end{bmatrix}\begin{bmatrix}x_1\\x_2\end{bmatrix}=\begin{bmatrix}b_1\\b_2\\b_3\end{bmatrix} 111125[x1x2]=b1b2b3,只有当 [ b 1 b 2 b 3 ] \begin{bmatrix}b_1\\b_2\\b_3\end{bmatrix} b1b2b3在矩阵的列空间时,方程才有解。

现在来看 [ 1 1 1 1 2 5 ] [ 1 1 1 2 1 5 ] = [ 3 8 8 30 ] \begin{bmatrix}1&1&1\\1&2&5\end{bmatrix}\begin{bmatrix}1&1\\1&2\\1&5\end{bmatrix}=\begin{bmatrix}3&8\\8&30\end{bmatrix} [111215]111125=[38830],可以看出此例中 A T A A^TA ATA是可逆的。然而并非所有 A T A A^TA ATA都是可逆的,如 [ 1 1 1 3 3 3 ] [ 1 3 1 3 1 3 ] = [ 3 9 9 27 ] \begin{bmatrix}1&1&1\\3&3&3\end{bmatrix}\begin{bmatrix}1&3\\1&3\\1&3\end{bmatrix}=\begin{bmatrix}3&9\\9&27\end{bmatrix} [131313]111333=[39927](注意到这是两个秩一矩阵相乘,其结果秩不会大于一)

给出好方程的结论

N ( A T A ) = N ( A ) r a n k ( A T A ) = r a n k ( A ) A T A 可 逆 当 且 仅 当 N ( A ) 为 零 向 量 , 即 A 的 列 线 性 无 关 N(A^TA)=N(A)\\ rank(A^TA)=rank(A)\\ A^TA可逆当且仅当N(A)为零向量,即A的列线性无关\\ N(ATA)=N(A)rank(ATA)=rank(A)ATAN(A)A线

15.子空间投影

image-20220214201729666

正交和投影( R 2 \mathbb{R}^2 R2空间引入)

有向量 a , b a, b a,b,做 b b b a a a上的投影 p p p,如图, e = b − p , e ⊥ p e=b-p, e \bot p e=bp,ep p p p a a a上,有 p = a x ‾ \underline{p=ax} p=ax

所以有 a T e = a T ( b − p ) = a T ( b − a x ) = 0 a^Te=a^T(b-p)=a^T(b-ax)=0 aTe=aT(bp)=aT(bax)=0。关于正交的最重要的方程:

a T ( b − x a ) = 0 x a T a = a T b ‾ x = a T b a T a ‾ p = a a T b a T a a^T(b-xa)=0 \\ \underline{xa^Ta=a^Tb} \\ \underline{x=\frac{a^Tb}{a^Ta}} \\ p=a\frac{a^Tb}{a^Ta} aT(bxa)=0xaTa=aTbx=aTaaTbp=aaTaaTb

设投影矩阵为 P P P,则可以说投影矩阵作用与某个向量后,得到其投影向量
p r o j e c t i o n p = P b P = a a T a T a ‾ projection_p=Pb\\ \underline{P=\frac{aa^T}{a^Ta}} projectionp=PbP=aTaaaT
a a a n n n维列向量,则 P P P是一个 n × n n \times n n×n矩阵。

观察投影矩阵 P P P的列空间, C ( P ) C(P) C(P)是一条通过 a a a的直线,而 r a n k ( P ) = 1 rank(P)=1 rank(P)=1(一列乘以一行: a a T aa^T aaT,而这一列向量 a a a是该矩阵的基)。

投影矩阵的性质

  1. P = P T ‾ \underline{P=P^T} P=PT,投影矩阵是一个对称矩阵。

  2. 如果对一个向量做两次投影,即 P P b PPb PPb,则其结果仍然与 P b Pb Pb相同,也就是 P 2 = P ‾ \underline{P^2=P} P2=P

投影的应用( R 3 \mathbb{R}^3 R3空间推广)

为什么我们需要投影?

因为有些时候 A x = b Ax=b Ax=b无解,我们只能求出最接近的那个解。

A x Ax Ax总是在 A A A的列空间中,而 b b b却不一定,这是问题所在,所以我们可以将 b b b变为 A A A的列空间中最接近的那个向量

即将无解的 A x = b Ax=b Ax=b变为求有解的 A x ^ = p A\hat{x}=p Ax^=p p p p b b b A A A的列空间中的投影, x ^ \hat{x} x^不再是那个不存在的 x x x,而是最接近的解)。

现在来看 R 3 \mathbb{R}^3 R3中的情形

将向量 b b b投影在平面 A A A上。同样的, p p p是向量 b b b在平面 A A A上的投影, e e e是垂直于平面 A A A的向量,即 b b b在平面 A A A法方向的分量。
设平面 A A A的一组基为 a 1 , a 2 a_1, a_2 a1,a2,则投影向量 p = x 1 ^ a 1 + x 2 ^ a 2 p=\hat{x_1}a_1+\hat{x_2}a_2 p=x1^a1+x2^a2,我们更倾向于写作 p = A x ^ p=A\hat{x} p=Ax^,这里如果我们求出 x ^ \hat{x} x^,则该解就是无解方程组最近似的解。

现在问题的关键在于找 e = b − A x ^ e=b-A\hat{x} e=bAx^,使它垂直于平面,因此我们得到两个方程

{ a 1 T ( b − A x ^ ) = 0 a 2 T ( b − A x ^ ) = 0 \begin{cases}a_1^T(b-A\hat{x})=0\\ a_2^T(b-A\hat{x})=0\end{cases} {a1T(bAx^)=0a2T(bAx^)=0
将方程组写成矩阵形式

[ a 1 T a 2 T ] ( b − A x ^ ) = [ 0 0 ] \begin{bmatrix}a_1^T\\a_2^T\end{bmatrix} (b-A\hat{x})= \begin{bmatrix}0\\0\end{bmatrix} [a1Ta2T](bAx^)=[00]
A T ( b − A x ^ ) = 0 A^T(b-A\hat{x})=0 AT(bAx^)=0

比较该方程与 R 2 \mathbb{R}^2 R2中的投影方程,发现只是向量 a a a变为矩阵 A A A而已,本质上就是 A T e = 0 A^Te=0 ATe=0。所以, e e e A T A^T AT的零空间中( e ∈ N ( A T ) e\in N(A^T) eN(AT)),从前面几讲我们知道,左零空间 ⊥ \bot 列空间,则有 e ⊥ C ( A ) e\bot C(A) eC(A),与我们设想的一致。

再化简方程得 A T A x = A T b A^TAx=A^Tb ATAx=ATb,比较在 R 2 \mathbb{R}^2 R2中的情形, a T a a^Ta aTa是一个数字而 A T A A^TA ATA是一个 n n n阶方阵,而解出的 x x x可以看做两个数字的比值。现在在 R 3 \mathbb{R}^3 R3中,我们需要再次考虑:什么是 x ^ \hat{x} x^?投影是什么?投影矩阵又是什么

  1. 第一个问题: x ^ = ( A T A ) − 1 A T b \hat x=(A^TA)^{-1}A^Tb x^=(ATA)1ATb

  2. 第二个问题: p = A x ^ = A ( A T A ) − 1 A T ‾ b p=A\hat x=\underline{A(A^TA)^{-1}A^T}b p=Ax^=A(ATA)1ATb,回忆在 R 2 \mathbb{R}^2 R2中的情形,下划线部分就是原来的 a a T a T a \frac{aa^T}{a^Ta} aTaaaT

  3. 第三个问题:易看出投影矩阵就是下划线部分 P = A ( A T A ) − 1 A T P=A(A^TA)^{-1}A^T P=A(ATA)1AT

注意点:

  • P = A ( A T A ) − 1 A T P=A(A^TA)^{-1}A^T P=A(ATA)1AT是不能继续化简为 P = A A − 1 ( A T ) − 1 A T = I P=AA^{-1}(A^T)^{-1}A^T=I P=AA1(AT)1AT=I的,因为这里的 A A A不是一个可逆方阵。
  • 换一种思路说,如果 A A A是一个 n n n阶可逆方阵,则 A A A的列空间是整个 R n \mathbb{R}^n Rn空间,于是 b b b R n \mathbb{R}^n Rn上的投影矩阵确实变为了 I I I,因为 b b b已经在空间中了,其投影不再改变。

投影矩阵 P P P的性质:

  1. P = P T P=P^T P=PT:有
    [ A ( A T A ) − 1 A T ] T = A [ ( A T A ) − 1 ] T A T \left[A(A^TA)^{-1}A^T\right]^T=A\left[(A^TA)^{-1}\right]^TA^T [A(ATA)1AT]T=A[(ATA)1]TAT ( A T A ) (A^TA) (ATA)是对称的,所以其逆也是对称的,所以有 A ( ( A T A ) − 1 ) T A T = A ( A T A ) − 1 A T A((A^TA)^{-1})^TA^T=A(A^TA)^{-1}A^T A((ATA)1)TAT=A(ATA)1AT,得证。

  2. P 2 = P P^2=P P2=P:有
    [ A ( A T A ) − 1 A T ] [ A ( A T A ) − 1 A T ] = A ( A T A ) − 1 [ ( A T A ) ( A T A ) − 1 ] A T = A ( A T A ) − 1 A T \left[A(A^TA)^{-1}A^T\right]\left[A(A^TA)^{-1}A^T\right]\\=A(A^TA)^{-1}\left[(A^TA)(A^TA)^{-1}\right]A^T\\=A(A^TA)^{-1}A^T [A(ATA)1AT][A(ATA)1AT]=A(ATA)1[(ATA)(ATA)1]AT=A(ATA)1AT,得证。

最小二乘法(拟合直线举例)

投影的经典应用案例:最小二乘法拟合直线(least squares fitting by a line)。

比如:需要找到距离图中三个点 ( 1 , 1 ) , ( 2 , 2 ) , ( 3 , 2 ) (1, 1), (2, 2), (3, 2) (1,1),(2,2),(3,2) 偏差最小的直线: b = C + D t b=C+Dt b=C+Dt

根据条件可以得到方程组
{ C + D = 1 C + 2 D = 2 C + 3 D = 2 \begin{cases} C+D&=1 \\ C+2D&=2 \\ C+3D&=2 \\ \end{cases} C+DC+2DC+3D=1=2=2
写作矩阵形式
[ 1 1 1 2 1 3 ] [ C D ] = [ 1 2 2 ] \begin{bmatrix}1&1 \\1&2 \\1&3\\\end{bmatrix}\begin{bmatrix}C\\D\\\end{bmatrix}=\begin{bmatrix}1\\2\\2\\\end{bmatrix} 111123[CD]=122
也就是我们的 A x = b Ax=b Ax=b,很明显方程组无解。但是 A T A x ^ = A T b A^TA\hat x=A^Tb ATAx^=ATb有解。

于是我们将原式两边同时乘以 A T A^T AT后得到的新方程组是有解的, A T A x ^ = A T b A^TA\hat x=A^Tb ATAx^=ATb也是最小二乘法的核心方程

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

儒雅的钓翁

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值