线性代数-MIT 18.06-4


本文在学习《麻省理工公开课 线性代数 MIT 18.06 Linear Algebra》总结反思形成

视频链接:MIT-B站视频

笔记部分:总结参考子实

16.投影矩阵和最小二乘

投影矩阵

投影矩阵 P = A ( A T A ) − 1 A T P=A(A^TA)^{-1}A^T P=A(ATA)1AT P b Pb Pb将会把向量 b b b投影在 A A A的列空间中。

  1. 举两个极端的例子:
  • 如果 b ∈ C ( A ) b\in C(A) bC(A),则 P b = b Pb=b Pb=b

在第一个极端情况中,如果 b ∈ C ( A ) b\in C(A) bC(A)则有 b = A x b=Ax b=Ax。带入投影矩阵 p = P b = A ( A T A ) − 1 A T A x = A x p=Pb=A(A^TA)^{-1}A^TAx=Ax p=Pb=A(ATA)1ATAx=Ax,得证。

  • 如果 b ⊥ C ( A ) b\bot C(A) bC(A),则 P b = 0 Pb=0 Pb=0

在第二个极端情况中,如果 b ⊥ C ( A ) b\bot C(A) bC(A)则有 b ∈ N ( A T ) b\in N(A^T) bN(AT),即 A T b = 0 A^Tb=0 ATb=0。则 p = P b = A ( A T A ) − 1 A T b = 0 p=Pb=A(A^TA)^{-1}A^Tb=0 p=Pb=A(ATA)1ATb=0,得证。

  1. 一般情况下:
  • b b b将会有一个垂直于 A A A的分量,有一个在 A A A列空间中的分量,投影的作用就是去掉垂直分量而保留列空间中的分量。
  1. 向量 b b b投影后,有 b = e + p , p = P b , e = ( I − P ) b b=e+p, p=Pb, e=(I-P)b b=e+p,p=Pb,e=(IP)b
  • 这里的 p p p b b b C ( A ) C(A) C(A)中的分量;
  • e e e b b b N ( A T ) N(A^T) N(AT)中的分量。

最小二乘法

1. 问题:找到距离图中三个点 ( 1 , 1 ) , ( 2 , 2 ) , ( 3 , 2 ) (1, 1), (2, 2), (3, 2) (1,1),(2,2),(3,2) 偏差最小的直线: y = C + D t y=C+Dt y=C+Dt

image-20220215111120483

根据条件可以得到方程组
{ C + D = 1 C + 2 D = 2 C + 3 D = 2 \begin{cases} C+D&=1 \\ C+2D&=2 \\ C+3D&=2 \\ \end{cases} C+DC+2DC+3D=1=2=2

写作矩阵形
[ 1 1 1 2 1 3 ] [ C D ] = [ 1 2 2 ] \begin{bmatrix}1&1 \\1&2 \\1&3\\\end{bmatrix}\begin{bmatrix}C\\D\\\end{bmatrix}=\begin{bmatrix}1\\2\\2\\\end{bmatrix} 111123[CD]=122

也就是我们的 A x = b Ax=b Ax=b,很明显方程组无解。

2. 问题转化:

我们需要在 b b b的三个分量上都增加某个误差 e e e,使得三点能够共线,同时使得 e 1 2 + e 2 2 + e 3 2 e_1^2+e_2^2+e_3^2 e12+e22+e32最小,找到拥有最小平方和的解(即最小二乘),即 ∥ A x − b ∥ 2 = ∥ e ∥ 2 \left\|Ax-b\right\|^2=\left\|e\right\|^2 Axb2=e2最小。

此时向量 b b b变为向量 p = [ p 1 p 2 p 3 ] p=\begin{bmatrix}p_1\\p_2\\p_3\end{bmatrix} p=p1p2p3(在方程组有解的情况下, A x − b = 0 Ax-b=0 Axb=0,即 b b b A A A的列空间中,误差 e e e为零。)

线性回归

我们现在做的运算也称作线性回归(linear regression),使用误差的平方和作为测量总误差的标准。

注:如果有另一个点,如 ( 0 , 100 ) (0, 100) (0,100),在本例中该点明显距离别的点很远,最小二乘将很容易被离群的点影响,通常使用最小二乘时会去掉明显离群的点。

3. 问题求解:

现在我们尝试解出 x ^ = [ C ^ D ^ ] \hat x=\begin{bmatrix}\hat C\\ \hat D\end{bmatrix} x^=[C^D^] p = [ p 1 p 2 p 3 ] p=\begin{bmatrix}p_1\\p_2\\p_3\end{bmatrix} p=p1p2p3

正规方程组

A T A x ^ = A T b A T A = [ 3 6 6 14 ] A T b = [ 5 11 ] [ 3 6 6 14 ] [ C ^ D ^ ] = [ 5 11 ] A^TA\hat x=A^Tb\\ A^TA= \begin{bmatrix}3&6\\6&14\end{bmatrix}\qquad A^Tb= \begin{bmatrix}5\\11\end{bmatrix}\\ \begin{bmatrix}3&6\\6&14\end{bmatrix} \begin{bmatrix}\hat C\\\hat D\end{bmatrix}= \begin{bmatrix}5\\11\end{bmatrix}\\ ATAx^=ATbATA=[36614]ATb=[511][36614][C^D^]=[511]

写作方程形式为
{ 3 C ^ + 16 D ^ = 5 6 C ^ + 14 D ^ = 11 \begin{cases}3\hat C+16\hat D&=5\\6\hat C+14\hat D&=11\\\end{cases} {3C^+16D^6C^+14D^=5=11
也称作正规方程组(normal equations)

4. 解法验证:

回顾前面提到的“使得误差最小”的条件, e 1 2 + e 2 2 + e 3 2 = ( C + D − 1 ) 2 + ( C + 2 D − 2 ) 2 + ( C + 3 D − 2 ) 2 e_1^2+e_2^2+e_3^2=(C+D-1)^2+(C+2D-2)^2+(C+3D-2)^2 e12+e22+e32=(C+D1)2+(C+2D2)2+(C+3D2)2,使该式取最小值,如果使用微积分方法,则需要对该式的两个变量 C , D C, D C,D分别求偏导数,再令求得的偏导式为零即可,正是我们刚才求得的正规方程组。(正规方程组中的第一个方程是对 C C C求偏导的结果,第二个方程式对 D D D求偏导的结果,无论使用哪一种方法都会得到这个方程组。)

解方程得 C ^ = 2 3 , D ^ = 1 2 \hat C=\frac{2}{3}, \hat D=\frac{1}{2} C^=32,D^=21,则“最佳直线”为 y = 2 3 + 1 2 t y=\frac{2}{3}+\frac{1}{2}t y=32+21t,带回原方程组解得 p 1 = 7 6 , p 2 = 5 3 , p 3 = 13 6 p_1=\frac{7}{6}, p_2=\frac{5}{3}, p_3=\frac{13}{6} p1=67,p2=35,p3=613,即 e 1 = − 1 6 , e 2 = 1 3 , e 3 = − 1 6 e_1=-\frac{1}{6}, e_2=\frac{1}{3}, e_3=-\frac{1}{6} e1=61,e2=31,e3=61

于是我们得到 p = [ 7 6 5 3 13 6 ] , e = [ − 1 6 1 3 − 1 6 ] p=\begin{bmatrix}\frac{7}{6}\\\frac{5}{3}\\\frac{13}{6}\end{bmatrix}, e=\begin{bmatrix}-\frac{1}{6}\\\frac{1}{3}\\-\frac{1}{6}\end{bmatrix} p=6735613,e=613161,易看出 b = p + e b=p+e b=p+e,同时我们发现 p ⋅ e = 0 p\cdot e=0 pe=0 p ⊥ e p\bot e pe

误差向量 e e e不仅垂直于投影向量 p p p,它同时垂直于列空间,如 [ 1 1 1 ] , [ 1 2 3 ] \begin{bmatrix}1\\1\\1\end{bmatrix}, \begin{bmatrix}1\\2\\3\end{bmatrix} 111,123

A T A A^TA ATA可逆性

接下来我们观察 A T A A^TA ATA,如果 A A A的各列线性无关,求证 A T A A^TA ATA是可逆矩阵。

证明:

  • 先假设 A T A x = 0 A^TAx=0 ATAx=0,两边同时乘以 x T x^T xT x T A T A x = 0 x^TA^TAx=0 xTATAx=0,即 ( A x ) T ( A x ) = 0 (Ax)^T(Ax)=0 (Ax)T(Ax)=0

  • 一个矩阵乘其转置结果为零,则这个矩阵也必须为零( ( A x ) T ( A x ) (Ax)^T(Ax) (Ax)T(Ax)相当于 A x Ax Ax长度的平方)。

  • A x = 0 Ax=0 Ax=0,结合题设中的“ A A A的各列线性无关”,可知 x = 0 x=0 x=0,也就是 A T A A^TA ATA的零空间中有且只有零向量,得证。

注:这里使用了一个技巧:两边同时乘以 x T x^T xT

引入标准正交向量组

我们再来看一种线性无关的特殊情况:互相垂直的单位向量一定是线性无关的。

  • 比如 [ 1 0 0 ] [ 0 1 0 ] [ 0 0 1 ] \begin{bmatrix}1\\0\\0\end{bmatrix}\begin{bmatrix}0\\1\\0\end{bmatrix}\begin{bmatrix}0\\0\\1\end{bmatrix} 100010001,这三个正交单位向量也称作标准正交向量组(orthonormal vectors)。
  • 另一个例子 [ cos ⁡ θ sin ⁡ θ ] [ − sin ⁡ θ cos ⁡ θ ] \begin{bmatrix}\cos\theta\\\sin\theta\end{bmatrix}\begin{bmatrix}-\sin\theta\\\cos\theta\end{bmatrix} [cosθsinθ][sinθcosθ]

17.正交矩阵和Gram-Schmidt正交化法

标准正交矩阵

标准正交向量

标准正交向量(orthonormal): q i T q j = { 0 i ≠ j 1 i = j q_i^Tq_j=\begin{cases}0\quad i\neq j\\1\quad i=j\end{cases} qiTqj={0i=j1i=j

标准正交矩阵

将标准正交向量放入矩阵中,有 Q = [ q 1 q 2 ⋯ q n ] Q=\Bigg[q_1 q_2 \cdots q_n\Bigg] Q=[q1q2qn]

上一讲我们研究了 A A A^A AA的特性,现在来观察 Q T Q = [ q 1 T q 2 T ⋮ q n T ] [ q 1 q 2 ⋯ q n ] Q^TQ=\begin{bmatrix} & q_1^T & \\ & q_2^T & \\ & \vdots & \\ & q_n^T & \end{bmatrix}\Bigg[q_1 q_2 \cdots q_n\Bigg] QTQ=q1Tq2TqnT[q1q2qn]

根据标准正交向量的定义,计算 Q T Q = [ 1 0 ⋯ 0 0 1 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ 1 ] = I Q^TQ=\begin{bmatrix}1&0&\cdots&0\\0&1&\cdots&0\\\vdots&\vdots&\ddots&\vdots\\0&0&\cdots&1\end{bmatrix}=I QTQ=100010001=I

Q Q Q成为标准正交矩阵(orthonormal matrix)。

特别的,当 Q Q Q恰好是方阵时,由于正交性,易得 Q Q Q是可逆的,又 Q T Q = I Q^TQ=I QTQ=I,所以 Q T = Q − 1 Q^T=Q^{-1} QT=Q1

实例
  • 举个置换矩阵的例子: Q = [ 0 1 0 1 0 0 0 0 1 ] Q=\begin{bmatrix}0&1&0\\1&0&0\\0&0&1\end{bmatrix} Q=010100001,则 Q T = [ 0 1 0 0 0 1 1 0 0 ] Q^T=\begin{bmatrix}0&1&0\\0&0&1\\1&0&0\end{bmatrix} QT=001100010,易得 Q T Q = I Q^TQ=I QTQ=I
  • 使用上一讲的例子 Q = [ cos ⁡ θ − sin ⁡ θ sin ⁡ θ cos ⁡ θ ] Q=\begin{bmatrix}\cos\theta&-\sin\theta\\\sin\theta&\cos\theta\end{bmatrix} Q=[cosθsinθsinθcosθ],列向量长度为 1 1 1,且列向量相互正交。
  • 其他例子 Q = 1 2 [ 1 1 1 − 1 ] Q=\frac{1}{\sqrt 2}\begin{bmatrix}1&1\\1&-1\end{bmatrix} Q=2 1[1111],列向量长度为 1 1 1,且列向量相互正交。
  • 使用上一个例子的矩阵,令 Q ′ = c [ Q Q Q − Q ] Q'=c\begin{bmatrix}Q&Q\\Q&-Q\end{bmatrix} Q=c[QQQQ],取合适的 c c c另列向量长度为 1 1 1也可以构造标准正交矩阵: Q = 1 2 [ 1 1 1 1 1 − 1 1 − 1 1 1 − 1 − 1 1 − 1 − 1 1 ] Q=\frac{1}{2}\begin{bmatrix}1&1&1&1\\1&-1&1&-1\\1&1&-1&-1\\1&-1&-1&1\end{bmatrix} Q=211111111111111111,这种构造方法以阿德玛(Adhemar)命名,对 2 , 4 , 16 , 64 , ⋯ 2, 4, 16, 64, \cdots 2,4,16,64,阶矩阵有效。
  • 再来看一个例子, Q = 1 3 [ 1 − 2 2 2 − 1 − 2 2 2 1 ] Q=\frac{1}{3}\begin{bmatrix}1&-2&2\\2&-1&-2\\2&2&1\end{bmatrix} Q=31122212221,列向量长度为 1 1 1,且列向量相互正交。格拉姆-施密特正交化法的缺点在于,由于要求得单位向量,所以我们总是除以向量的长度,这导致标准正交矩阵中总是带有根号,而上面几个例子很少有根号。

再来看标准正交化有什么好处,假设要做投影,将向量 b b b投影在标准正交矩阵 Q Q Q的列空间中,根据上一讲的公式得 P = Q ( Q T Q ) − 1 Q T P=Q(Q^TQ)^{-1}Q^T P=Q(QTQ)1QT,易得 P = Q Q T P=QQ^T P=QQT。我们断言,当列向量为标准正交基时, Q Q T QQ^T QQT是投影矩阵。极端情况,假设矩阵是方阵,而其列向量是标准正交的,则其列空间就是整个向量空间,而投影整个空间的投影矩阵就是单位矩阵,此时 Q Q T = I QQ^T=I QQT=I。可以验证一下投影矩阵的两个性质: ( Q Q T ) T = ( Q T ) T Q T = Q Q T (QQ^T)^T=(Q^T)^TQ^T=QQ^T (QQT)T=(QT)TQT=QQT,得证; ( Q Q T ) 2 = Q Q T Q Q T = Q ( Q T Q ) Q T = Q Q T (QQ^T)^2=QQ^TQQ^T=Q(Q^TQ)Q^T=QQ^T (QQT)2=QQTQQT=Q(QTQ)QT=QQT,得证。

我们计算的 A T A x ^ = A T b A^TA\hat x=A^Tb ATAx^=ATb,现在变为 Q T Q x ^ = Q T b Q^TQ\hat x=Q^Tb QTQx^=QTb,也就是 x ^ = Q T b \hat x=Q^Tb x^=QTb,分解开来看就是 x ^ i = q i T b ‾ \underline{\hat x_i=q_i^Tb} x^i=qiTb,这个式子在很多数学领域都有重要作用。当我们知道标准正交基,则解向量第 i i i个分量为基的第 i i i个分量乘以 b b b,在第 i i i个基方向上的投影就等于 q i T b q_i^Tb qiTb

Gram-Schmidt正交化法

二维示例

我们有两个线性无关的向量 a , b a, b a,b,先把它们化为正交向量 A , B A, B A,B,再将它们单位化,变为单位正交向量 q 1 = A ∥ A ∥ , q 2 = B ∥ B ∥ q_1=\frac{A}{\left\|A\right\|}, q_2=\frac{B}{\left\|B\right\|} q1=AA,q2=BB

  1. 我们取定 a a a向量的方向, a = A a=A a=A

  2. 接下来将 b b b投影在 A A A的法方向上得到 B B B,也就是求子空间投影一讲中,我们提到的误差向量 e = b − p e=b-p e=bp,即 B = b − A T b A T A A B=b-\frac{A^Tb}{A^TA}A B=bATAATbA

  3. 检验一下 A ⊥ B A\bot B AB A T B = A T b − A T A T b A T A A = A T b − A T A A T A A T b = 0 A^TB=A^Tb-A^T\frac{A^Tb}{A^TA}A=A^Tb-\frac{A^TA}{A^TA}A^Tb=0 ATB=ATbATATAATbA=ATbATAATAATb=0。( A T b A T A A \frac{A^Tb}{A^TA}A ATAATbA就是 A x ^ = p A\hat x=p Ax^=p。)

三维示例

我们有三个线性无关的向量 a , b , c a, b, c a,b,c,则我们现需要求它们的正交向量 A , B , C A, B, C A,B,C,再将它们单位化,变为单位正交向量 q 1 = A ∥ A ∥ , q 2 = B ∥ B ∥ , q 3 = C ∥ C ∥ q_1=\frac{A}{\left\|A\right\|}, q_2=\frac{B}{\left\|B\right\|}, q_3=\frac{C}{\left\|C\right\|} q1=AA,q2=BB,q3=CC

  1. 前两个向量我们已经得到了,我们现在需要求第三个向量同时正交于 A , B A, B A,B

  2. 我们依然沿用上面的方法,从 c c c中减去其在 A , B A, B A,B上的分量,得到正交与 A , B A, B A,B C C C

C = c − A T c A T A A − B T c B T B B C=c-\frac{A^Tc}{A^TA}A-\frac{B^Tc}{B^TB}B C=cATAATcABTBBTcB

  1. 现在我们试验一下推导出来的公式, a = [ 1 1 1 ] , b = [ 1 0 2 ] a=\begin{bmatrix}1\\1\\1\end{bmatrix}, b=\begin{bmatrix}1\\0\\2\end{bmatrix} a=111,b=102
  • A = a = [ 1 1 1 ] A=a=\begin{bmatrix}1\\1\\1\end{bmatrix} A=a=111

  • 根据公式有 B = a − h A B=a-hA B=ahA h h h是比值 A T b A T A = 3 3 \frac{A^Tb}{A^TA}=\frac{3}{3} ATAATb=33,则 B = [ 1 1 1 ] − 3 3 [ 1 0 2 ] = [ 0 − 1 1 ] B=\begin{bmatrix}1\\1\\1\end{bmatrix}-\frac{3}{3}\begin{bmatrix}1\\0\\2\end{bmatrix}=\begin{bmatrix}0\\-1\\1\end{bmatrix} B=11133102=011。验证一下正交性有 A ⋅ B = 0 A\cdot B=0 AB=0

  • 单位化, q 1 = 1 3 [ 1 1 1 ] , q 2 = 1 2 [ 1 0 2 ] q_1=\frac{1}{\sqrt 3}\begin{bmatrix}1\\1\\1\end{bmatrix},\quad q_2=\frac{1}{\sqrt 2}\begin{bmatrix}1\\0\\2\end{bmatrix} q1=3 1111,q2=2 1102,则标准正交矩阵为 Q = [ 1 3 0 1 3 − 1 2 1 3 1 2 ] Q=\begin{bmatrix}\frac{1}{\sqrt 3}&0\\\frac{1}{\sqrt 3}&-\frac{1}{\sqrt 2}\\\frac{1}{\sqrt 3}&\frac{1}{\sqrt 2}\end{bmatrix} Q=3 13 13 102 12 1,对比原来的矩阵 D = [ 1 1 1 0 1 2 ] D=\begin{bmatrix}1&1\\1&0\\1&2\end{bmatrix} D=111102

    D , Q D, Q D,Q的列空间是相同的,只是将原来的基标准正交化。

矩阵理解(QR分解)

用矩阵的眼光审视消元法,有 A = L U A=LU A=LU

同样的,用矩阵表达标准正交化, A = Q R A=QR A=QR

设矩阵 A A A有两个列向量 [ a 1 a 2 ] \Bigg[a_1 a_2\Bigg] [a1a2],则标准正交化后有
[ a 1 a 2 ] = [ q 1 q 2 ] [ a 1 T q 1 a 2 T q 1 a 1 T q 2 a 2 T q 2 ] = [ q 1 q 2 ] [ a 1 T q 1 a 2 T q 1 0 a 2 T q 2 ] \Bigg[a_1 a_2\Bigg]\\=\Bigg[q_1 q_2\Bigg]\begin{bmatrix}a_1^Tq_1&a_2^Tq_1\\a_1^Tq_2&a_2^Tq_2\end{bmatrix}\\=\Bigg[q_1 q_2\Bigg]\begin{bmatrix}a_1^Tq_1&a_2^Tq_1\\0&a_2^Tq_2\end{bmatrix} [a1a2]=[q1q2][a1Tq1a1Tq2a2Tq1a2Tq2]=[q1q2][a1Tq10a2Tq1a2Tq2]

而左下角的 a 1 T q 2 a_1^Tq_2 a1Tq2始终为 0 0 0

因为Gram-Schmidt正交化总是使得 a 1 ⊥ q 2 a_1\bot q_2 a1q2,后来构造的向量总是正交于先前的向量。所以这个 R R R矩阵是一个上三角矩阵

18.行列式及其性质

行列式(determinant)的**前三条性质(重要)**可以推导出其他7条性质

  1. det ⁡ I = 1 \det{I}=1 detI=1,单位矩阵行列式值为一。

  2. 交换行行列式变号。

    在给出第三个性质之前,先由前两个性质可知,对置换矩阵有 det ⁡ P = { 1 e v e n − 1 o d d \det P=\begin{cases}1\quad &even\\-1\quad &odd\end{cases} detP={11evenodd

    举例: ∣ 1 0 0 1 ∣ = 1 , ∣ 0 1 1 0 ∣ = − 1 \begin{vmatrix}1&0\\0&1\end{vmatrix}=1,\quad\begin{vmatrix}0&1\\1&0\end{vmatrix}=-1 1001=1,0110=1,于是我们猜想,对于二阶方阵,行列式的计算公式为 ∣ a b c d ∣ = a d − b c \begin{vmatrix}a&b\\c&d\end{vmatrix}=ad-bc acbd=adbc

  3. a. ∣ t a t b t c t d ∣ = t ∣ a b c d ∣ \begin{vmatrix}ta&tb\\tc&td\end{vmatrix}=t\begin{vmatrix}a&b\\c&d\end{vmatrix} tatctbtd=tacbd

    b. ∣ a + a ′ b + b ′ c d ∣ = ∣ a b c d ∣ + ∣ a ′ b ′ c d ∣ \begin{vmatrix}a+a'&b+b'\\c&d\end{vmatrix}=\begin{vmatrix}a&b\\c&d\end{vmatrix}+\begin{vmatrix}a'&b'\\c&d\end{vmatrix} a+acb+bd=acbd+acbd

  4. 如果两行相等,则行列式为零。使用性质2交换两行易证。

  5. 从第 k k k行中减去第 i i i行的 l l l倍,行列式不变。这条性质是针对消元的,我们可以先消元,将方阵变为上三角形式后再计算行列式。

    举例: ∣ a b c − l a d − l b ∣ = 3. b ∣ a b c d ∣ + ∣ a b − l a − l b ∣ = 3. a ∣ a b c d ∣ − l ∣ a b a b ∣ = 4 ∣ a b c d ∣ \begin{vmatrix}a&b\\c-la&d-lb\end{vmatrix}\stackrel{3.b}{=}\begin{vmatrix}a&b\\c&d\end{vmatrix}+\begin{vmatrix}a&b\\-la&-lb\end{vmatrix}\stackrel{3.a}{=}\begin{vmatrix}a&b\\c&d\end{vmatrix}-l\begin{vmatrix}a&b\\a&b\end{vmatrix}\stackrel{4}{=}\begin{vmatrix}a&b\\c&d\end{vmatrix} aclabdlb=3.bacbd+alablb=3.aacbdlaabb=4acbd

  6. 如果方阵的某一行为零,则其行列式值为零。

    使用性质3.a对为零行乘以不为零系数 l l l,使 l det ⁡ A = det ⁡ A l\det A=\det A ldetA=detA即可证明;或使用性质5将某行加到为零行,使存在两行相等后使用性质4即可证明。

  7. 有上三角行列式 U = ∣ d 1 ∗ ⋯ ∗ 0 d 2 ⋯ ∗ ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ d n ∣ U=\begin{vmatrix}d_{1}&*&\cdots&*\\0&d_{2}&\cdots&*\\\vdots&\vdots&\ddots&\vdots\\0&0&\cdots&d_{n}\end{vmatrix} U=d100d20dn,则 det ⁡ U = d 1 d 2 ⋯ d n \det U=d_1d_2\cdots d_n detU=d1d2dn

    • 使用性质5,从最后一行开始,将对角元素上方的 ∗ * 元素依次变为零,可以得到型为 D = ∣ d 1 0 ⋯ 0 0 d 2 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ d n ∣ D=\begin{vmatrix}d_{1}&0&\cdots&0\\0&d_{2}&\cdots&0\\\vdots&\vdots&\ddots&\vdots\\0&0&\cdots&d_{n}\end{vmatrix} D=d1000d2000dn的对角行列式

    • 再使用性质3将对角元素提出得到 d n d n − 1 ⋯ d 1 ∣ 1 0 ⋯ 0 0 1 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ 1 ∣ d_nd_{n-1}\cdots d_1\begin{vmatrix}1&0&\cdots&0\\0&1&\cdots&0\\\vdots&\vdots&\ddots&\vdots\\0&0&\cdots&1\end{vmatrix} dndn1d1100010001,得证。

  8. 当矩阵 A A A为奇异矩阵时, det ⁡ A = 0 \det A=0 detA=0;当且仅当 A A A可逆时,有 det ⁡ A ≠ 0 \det A\neq0 detA=0

    如果矩阵可逆,则化简为上三角形式后各行都含有主元,行列式即为主元乘积;如果矩阵奇异,则化简为上三角形式时会出现全零行,行列式为零。

    再回顾二阶情况: ∣ a b c d ∣ → 消 元 ∣ a b 0 d − c a b ∣ = a d − b c \begin{vmatrix}a&b\\c&d\end{vmatrix}\xrightarrow{消元}\begin{vmatrix}a&b\\0&d-\frac{c}{a}b\end{vmatrix}=ad-bc acbd a0bdacb=adbc,前面的猜想得到证实。

  9. det ⁡ A B = ( det ⁡ A ) ( det ⁡ B ) \det AB=(\det A)(\det B) detAB=(detA)(detB)

    使用这一性质, det ⁡ I = det ⁡ A − 1 A = det ⁡ A − 1 det ⁡ A \det I=\det{A^{-1}A}=\det A^{-1}\det A detI=detA1A=detA1detA,所以 det ⁡ A − 1 = 1 det ⁡ A \det A^{-1}=\frac{1}{\det A} detA1=detA1

    同时还可以得到: det ⁡ A 2 = ( det ⁡ A ) 2 \det A^2=(\det A)^2 detA2=(detA)2,以及 det ⁡ 2 A = 2 n det ⁡ A \det 2A=2^n\det A det2A=2ndetA。(物理含义:类比体积)

  10. det ⁡ A T = det ⁡ A \det A^T=\det A detAT=detA

    前面一直在关注行的属性给行列式带来的变化,有了这条性质,行的属性同样适用于列,比如对性质2就有“交换列行列式变号”。

    证明: ∣ A T ∣ = ∣ A ∣ → ∣ U T L T ∣ = ∣ L U ∣ → ∣ U T ∣ ∣ L T ∣ = ∣ L ∣ ∣ U ∣ \left|A^T\right|=\left|A\right|\rightarrow\left|U^TL^T\right|=\left|LU\right|\rightarrow\left|U^T\right|\left|L^T\right|=\left|L\right|\left|U\right| AT=AUTLT=LUUTLT=LU,值得注意的是, L , U L, U L,U的行列式并不因为转

19.行列式公式和代数余子式

复习三条基本性质
  1. det ⁡ I = 1 \det I=1 detI=1
  2. 交换行行列式变号;
  3. 对行列式的每一行都可以单独使用线性运算,其值不变;
行列式计算(分解)

二阶方阵行列式:

∣ a b c d ∣ = ∣ a 0 c d ∣ + ∣ 0 b c d ∣ = ∣ a 0 c 0 ∣ + ∣ a 0 0 d ∣ + ∣ 0 b c 0 ∣ + ∣ 0 b 0 d ∣ = a d − b c \begin{vmatrix}a&b\\c&d\end{vmatrix}=\begin{vmatrix}a&0\\c&d\end{vmatrix}+\begin{vmatrix}0&b\\c&d\end{vmatrix}=\begin{vmatrix}a&0\\c&0\end{vmatrix}+\begin{vmatrix}a&0\\0&d\end{vmatrix}+\begin{vmatrix}0&b\\c&0\end{vmatrix}+\begin{vmatrix}0&b\\0&d\end{vmatrix}=ad-bc acbd=ac0d+0cbd=ac00+a00d+0cb0+00bd=adbc

三阶方阵行列式:

∣ a 11 a 12 a 13 a 21 a 22 a 23 a 31 a 32 a 33 ∣ = ∣ a 11 0 0 0 a 22 0 0 0 a 33 ∣ + ∣ a 11 0 0 0 0 a 23 0 a 32 0 ∣ + ∣ 0 a 12 0 a 21 0 0 0 0 a 33 ∣ + ∣ 0 a 12 0 0 0 a 23 a 31 0 0 ∣ + ∣ 0 0 a 13 a 21 0 0 0 a 32 0 ∣ + ∣ 0 0 a 13 0 a 22 0 a 31 0 0 ∣ \begin{vmatrix}a_{11}&a_{12}&a_{13}\\a_{21}&a_{22}&a_{23}\\a_{31}&a_{32}&a_{33}\end{vmatrix}=\begin{vmatrix}a_{11}&0&0\\0&a_{22}&0\\0&0&a_{33}\end{vmatrix}+\begin{vmatrix}a_{11}&0&0\\0&0&a_{23}\\0&a_{32}&0\end{vmatrix}+\begin{vmatrix}0&a_{12}&0\\a_{21}&0&0\\0&0&a_{33}\end{vmatrix}+\begin{vmatrix}0&a_{12}&0\\0&0&a_{23}\\a_{31}&0&0\end{vmatrix}+\begin{vmatrix}0&0&a_{13}\\a_{21}&0&0\\0&a_{32}&0\end{vmatrix}+\begin{vmatrix}0&0&a_{13}\\0&a_{22}&0\\a_{31}&0&0\end{vmatrix} a11a21a31a12a22a32a13a23a33=a11000a22000a33+a110000a320a230+0a210a120000a33+00a31a12000a230+0a21000a32a1300+00a310a220a1300

我们只需要找到不为零的行列式,求和即可:

原 式 = a 11 a 22 a 33 − a 11 a 23 a 32 − a 12 a 21 a 33 + a 12 a 23 a 31 + a 13 a 21 a 32 − a 13 a 22 a 31 原式=a_{11}a_{22}a_{33}-a_{11}a_{23}a_{32}-a_{12}a_{21}a_{33}+a_{12}a_{23}a_{31}+a_{13}a_{21}a_{32}-a_{13}a_{22}a_{31} =a11a22a33a11a23a32a12a21a33+a12a23a31+a13a21a32a13a22a31

n阶方阵行列式推广:

按照上面的式子可知 n n n阶行列式应该可以分解成 n ! n! n!个非零行列式(占据第一行的元素有 n n n种选择,占据第二行的元素有 n − 1 n-1 n1种选择,以此类推得 n ! n! n!):

det ⁡ A = ∑ n ! ± a 1 α a 2 β a 3 γ ⋯ a n ω , ( α , β , γ , ω ) = P n n (2) \det A=\sum_{n!} \pm a_{1\alpha}a_{2\beta}a_{3\gamma}\cdots a_{n\omega}, (\alpha, \beta, \gamma, \omega)=P_n^n\tag{2} detA=n!±a1αa2βa3γanω,(α,β,γ,ω)=Pnn(2)

符号确定的规律:

上述公式还不完全,接下来需要考虑如何确定符号:
∣ 0 0 1 ‾ 1 ‾ 0 1 ‾ 1 ‾ 0 1 ‾ 1 ‾ 0 0 1 ‾ 0 0 1 ‾ ∣ \begin{vmatrix}0&0&\overline 1&\underline 1\\0&\overline 1&\underline 1&0\\\overline 1&\underline 1&0&0\\\underline 1&0&0&\overline 1\end{vmatrix} 0011011011001001

  • 观察带有下划线的元素,它们的排列是 ( 4 , 3 , 2 , 1 ) (4,3,2,1) (4,3,2,1),变为 ( 1 , 2 , 3 , 4 ) (1,2,3,4) (1,2,3,4)需要两步操作,所以应取 + + +
  • 观察带有上划线的元素,它们的排列是 ( 3 , 2 , 1 , 4 ) (3,2,1,4) (3,2,1,4),变为 ( 1 , 2 , 3 , 4 ) (1,2,3,4) (1,2,3,4)需要一步操作,所以应取 − -
  • 观察其他元素,我们无法找出除了上面两种以外的排列方式,于是该行列式值为零,这是一个奇异矩阵。
代数余子式

此处引入代数余子式(cofactor)的概念,它的作用是把 n n n阶行列式化简为 n − 1 n-1 n1阶行列式。

定义 a i j a_{ij} aij的代数余子式:

将原行列式的第 i i i行与第 j j j列抹去后得到的 n − 1 n-1 n1阶行列式记为 C i j C_{ij} Cij i + j i+j i+j为偶时时取 + + + i + j i+j i+j为奇时取 − -

将行列式 A A A沿第一行展开:

det ⁡ A = a 11 C 11 + a 12 C 12 + ⋯ + a 1 n C 1 n \det A=a_{11}C_{11}+a_{12}C_{12}+\cdots+a_{1n}C_{1n} detA=a11C11+a12C12++a1nC1n

求行列式小结

到现在为止,我们了解了三种求行列式的方法:

  1. 消元, det ⁡ A \det A detA就是主元的乘积;
  2. 使用展开方法,求 n ! n! n!项之积;
  3. 使用代数余子式。

20.克拉默法则、逆矩阵、体积

本讲主要介绍逆矩阵的应用。

逆矩阵

对于二阶矩阵有
[ a b c d ] − 1 = 1 a d − b c [ d − b − c a ] \begin{bmatrix}a&b\\c&d\end{bmatrix}^{-1}=\frac{1}{ad-bc}\begin{bmatrix}d&-b\\-c&a\end{bmatrix} [acbd]1=adbc1[dcba]
观察易得,系数项就是行列式的倒数,而矩阵则是由一系列代数余子式组成的。先给出公式:
A − 1 = 1 det ⁡ A C T A^{-1}=\frac{1}{\det A}C^T A1=detA1CT

观察这个公式的运作,化简公式得 A C T = ( det ⁡ A ) I AC^T=(\det A)I ACT=(detA)I,写成矩阵形式
[ a 11 a 12 ⋯ a 1 n ⋮ ⋮ ⋱ ⋮ a n 1 a n 2 ⋯ a n n ] [ C 11 ⋯ C n 1 C 12 ⋯ C n 2 ⋮ ⋱ ⋮ C 1 n ⋯ C n n ] = R e s R e s = [ det ⁡ A 0 ⋯ 0 0 det ⁡ A ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ det ⁡ A ] = ( det ⁡ A ) I \begin{bmatrix}a_{11}&a_{12}&\cdots&a_{1n}\\\vdots&\vdots&\ddots&\vdots\\a_{n1}&a_{n2}&\cdots&a_{nn}\end{bmatrix}\begin{bmatrix}C_{11}&\cdots&C_{n1}\\C_{12}&\cdots&C_{n2}\\\vdots&\ddots&\vdots\\C_{1n}&\cdots&C_{nn}\end{bmatrix}=Res\\ Res=\begin{bmatrix}\det A&0&\cdots&0\\0&\det A&\cdots&0\\\vdots&\vdots&\ddots&\vdots\\0&0&\cdots&\det A\end{bmatrix}=(\det A)I a11an1a12an2a1nannC11C12C1nCn1Cn2Cnn=ResRes=detA000detA000detA=(detA)I

下面从结果的对角线和非对角线元素出发进行解释:

R e s Res Res对角线元素:

观察其结果的元素 R e s 11 = a 11 C 11 + a 12 C 12 + ⋯ + a 1 n C 1 n Res_{11}=a_{11}C_{11}+a_{12}C_{12}+\cdots+a_{1n}C_{1n} Res11=a11C11+a12C12++a1nC1n,这正是上一讲提到的将行列式按第一行展开的结果。

同理,对 R e s 22 , ⋯   , R e s n n Res_{22}, \cdots, Res_{nn} Res22,,Resnn都有 R e s i i = det ⁡ A Res_{ii}=\det A Resii=detA,即对角线元素均为 det ⁡ A \det A detA

R e s Res Res非对角线元素:

元素 R e s 1 n = a 11 C n 1 + a 12 C n 2 + ⋯ + a 1 n C n n Res_{1n}=a_{11}C_{n1}+a_{12}C_{n2}+\cdots+a_{1n}C_{nn} Res1n=a11Cn1+a12Cn2++a1nCnn,该元素是第一行与最后一行的代数余子式相乘之积。

这个式子也可以写成一个特殊矩阵的行列式,即矩阵
A s = [ a 11 a 12 ⋯ a 1 n a 21 a 22 ⋯ a 2 n ⋮ ⋮ ⋱ ⋮ a n − a 1 a n − 12 ⋯ a n − 1 n a 11 a 12 ⋯ a 1 n ] A_{s}=\begin{bmatrix}a_{11}&a_{12}&\cdots&a_{1n}\\a_{21}&a_{22}&\cdots&a_{2n}\\\vdots&\vdots&\ddots&\vdots\\a_{n-a1}&a_{n-12}&\cdots&a_{n-1n}\\a_{11}&a_{12}&\cdots&a_{1n}\end{bmatrix} As=a11a21ana1a11a12a22an12a12a1na2nan1na1n

计算此矩阵的行列式,将 det ⁡ A s \det A_{s} detAs按最后一行展开,也得到 det ⁡ A s = a 11 C n 1 + a 12 C n 2 + ⋯ + a 1 n C n n \det A_{s}=a_{11}C_{n1}+a_{12}C_{n2}+\cdots+a_{1n}C_{nn} detAs=a11Cn1+a12Cn2++a1nCnn

行列式 A s A_{s} As有两行相等,其值为零。

综上,结合对角线元素与非对角线元素的结果,得到 R e s Res Res就是 ( det ⁡ A ) I (\det A)I (detA)I,得证。

求解 A x = b Ax=b Ax=b和克拉默法则

因为我们现在有了逆矩阵的计算公式,所以对 A x = b Ax=b Ax=b
x = A − 1 b = 1 det ⁡ A C T b x=A^{-1}b=\frac{1}{\det A}C^Tb x=A1b=detA1CTb
这就是计算 x x x的公式,即克莱默法则(Cramer’s rule)。

克拉默理解:

观察 x = 1 det ⁡ A C T b x=\frac{1}{\det A}C^Tb x=detA1CTb,我们将得到的解拆分开来,对 x x x的第一个分量有 x 1 = y 1 det ⁡ A x_1=\frac{y_1}{\det A} x1=detAy1,这里 y 1 y_1 y1是一个数字,其值为
y 1 = b 1 C 11 + b 2 C 21 + ⋯ + b n C n 1 y_1=b_1C_{11}+b_2C_{21}+\cdots+b_nC_{n1} y1=b1C11+b2C21++bnCn1
当我们看到数字与代数余子式乘之积求和时,都应该联想到求行列式,也就是说 y 1 y_1 y1可以看做是一个矩阵的行列式

我们设这个矩阵为 B 1 B_1 B1。所以有 x 1 = det ⁡ B 1 det ⁡ A x_1=\frac{\det B_1}{\det A} x1=detAdetB1

B 1 B_1 B1是一个形为
[ b a 2 a 3 ⋯ a n ] \Bigg[b \quad a_2 \quad a_3 \cdots a_n\Bigg] [ba2a3an]
的矩阵,即将矩阵 A A A的第一列变为 b b b向量而得到的新矩阵。其实很容易看出, det ⁡ B 1 \det B_1 detB1可以沿第一列展开得到
y 1 = b 1 C 11 + b 2 C 21 + ⋯ + b n C n 1 y_1=b_1C_{11}+b_2C_{21}+\cdots+b_nC_{n1} y1=b1C11+b2C21++bnCn1
一般的,有 B j = [ a 1 a 2 ⋯ a j − 1 b a j + 1 ⋯ a n ] B_j=\Bigg[a_1 a_2 \cdots a_{j-1} b a_{j+1} \cdots a_n\Bigg] Bj=[a1a2aj1baj+1an],即将矩阵 A A A的第 j j j列变为 b b b向量而得到的新矩阵。

所以,对于解的分量有
x j = det ⁡ B j det ⁡ A x_j=\frac{\det B_j}{\det A} xj=detAdetBj
克莱默法则公式虽然很漂亮简洁但是计算并不方便。

关于体积(Volume)

命题:行列式的绝对值等于一个箱子的体积。

三维情形
  1. 对于 3 3 3阶方阵 A A A,取第一行 ( a 1 , a 2 , a 3 ) (a_1,a_2,a_3) (a1,a2,a3),令其为三维空间中点 A 1 A_1 A1的坐标,同理有点 A 2 , A 3 A_2, A_3 A2,A3。连接这三个点与原点可以得到三条边,使用这三条边展开得到一个平行六面体, ∥ det ⁡ A ∥ \left\|\det A\right\| detA就是该平行六面体的体积。

  2. 对于三阶单位矩阵,其体积为 det ⁡ I = 1 \det I=1 detI=1,此时这个箱子是一个单位立方体。这其实也证明了前面学过的行列式性质1。于是我们想,如果能接着证明性质2、3即可证明体积与行列式的关系。

    对于行列式性质2,我们交换两行并不会改变箱子的大小,同时行列式的绝对值也没有改变,得证。

  3. 对于标准正交矩阵,现在我们取矩阵 A = Q A=Q A=Q,而 Q Q Q是一个标准正交矩阵,此时这个箱子是一个立方体,可以看出其实这个箱子就是刚才的单位立方体经过旋转得到的。对于标准正交矩阵,有 Q T Q = I Q^TQ=I QTQ=I,等式两边取行列式得 det ⁡ ( Q T Q ) = 1 = ∣ Q T ∣ ∣ Q ∣ \det(Q^TQ)=1=\left|Q^T\right|\left|Q\right| det(QTQ)=1=QTQ,而根据行列式性质10有 ∣ Q T ∣ = ∣ Q ∣ \left|Q^T\right|=\left|Q\right| QT=Q,所以 原 式 = ∣ Q ∣ 2 = 1 , ∣ Q ∣ = ± 1 原式=\left|Q\right|^2=1, \left|Q\right|=\pm 1 =Q2=1,Q=±1

  4. 接下来在考虑不再是“单位”的立方体,即长方体。 假设 Q Q Q矩阵的第一行翻倍得到新矩阵 Q 2 Q_2 Q2,此时箱子变为在第一行方向上增加一倍的长方体箱子,也就是两个“标准正交箱子”在第一行方向上的堆叠。易知这个长方体箱子是原来体积的两倍,而根据行列式性质3.a有 det ⁡ Q 2 = det ⁡ Q \det Q_2=\det Q detQ2=detQ,于是体积也符合行列式的数乘性质。

二维情形

二阶方阵的情形, ∣ a + a ′ b + b ′ c d ∣ = ∣ a b c d ∣ + ∣ a ′ b ′ c d ∣ \begin{vmatrix}a+a'&b+b'\\c&d\end{vmatrix}=\begin{vmatrix}a&b\\c&d\end{vmatrix}+\begin{vmatrix}a'&b'\\c&d\end{vmatrix} a+acb+bd=acbd+acbd

在二阶情况中,行列式就是一个求平行四边形面积的公式,原来我们求由四个点 ( 0 , 0 ) , ( a , b ) , ( c , d ) , ( a + c , b + d ) (0,0), (a,b), (c,d), (a+c,b+d) (0,0),(a,b),(c,d),(a+c,b+d)围成的四边形的面积,需要先求四边形的底边长,再做高求解,现在只需要计算 det ⁡ A = a d − b c \det A=ad-bc detA=adbc即可(更加常用的是求由 ( 0 , 0 ) , ( a , b ) , ( c , d ) (0,0), (a,b), (c,d) (0,0),(a,b),(c,d)围成的三角形的面积,即 1 2 ( a d − b c ) \frac{1}{2}(ad-bc) 21(adbc))。

也就是说,如果知道了歪箱子的顶点坐标,求面积(二阶情形)或体积(三阶情形)时,我们不再需要开方、求角度,只需要计算行列式的值就行了。

更一般情形下:

由点 ( x 1 , y 1 ) , ( x 2 , y 2 ) , ( x 3 , y 3 ) (x_1,y_1), (x_2,y_2), (x_3,y_3) (x1,y1),(x2,y2),(x3,y3)围成的三角形面积等于
1 2 ∣ x 1 y 1 1 x 2 y 2 1 x 3 y 3 1 ∣ \frac{1}{2}\begin{vmatrix}x_1&y_1&1\\x_2&y_2&1\\x_3&y_3&1\end{vmatrix} 21x1x2x3y1y2y3111
计算时分别用第二行、第三行减去第一行化简到第三列只有一个 1 1 1(这个操作实际作用是将三角形移动到原点),得到
1 2 ∣ x 1 y 1 1 x 2 − x 1 y 2 − y 1 0 x 3 − x 1 y 3 − y 1 0 ∣ \frac{1}{2}\begin{vmatrix}x_1&y_1&1\\x_2-x_1&y_2-y_1&0\\x_3-x_1&y_3-y_1&0\end{vmatrix} 21x1x2x1x3x1y1y2y1y3y1100

计算 det ⁡ A = a d − b c \det A=ad-bc detA=adbc即可(更加常用的是求由 ( 0 , 0 ) , ( a , b ) , ( c , d ) (0,0), (a,b), (c,d) (0,0),(a,b),(c,d)围成的三角形的面积,即 1 2 ( a d − b c ) \frac{1}{2}(ad-bc) 21(adbc))。

也就是说,如果知道了歪箱子的顶点坐标,求面积(二阶情形)或体积(三阶情形)时,我们不再需要开方、求角度,只需要计算行列式的值就行了。

更一般情形下:

由点 ( x 1 , y 1 ) , ( x 2 , y 2 ) , ( x 3 , y 3 ) (x_1,y_1), (x_2,y_2), (x_3,y_3) (x1,y1),(x2,y2),(x3,y3)围成的三角形面积等于
1 2 ∣ x 1 y 1 1 x 2 y 2 1 x 3 y 3 1 ∣ \frac{1}{2}\begin{vmatrix}x_1&y_1&1\\x_2&y_2&1\\x_3&y_3&1\end{vmatrix} 21x1x2x3y1y2y3111
计算时分别用第二行、第三行减去第一行化简到第三列只有一个 1 1 1(这个操作实际作用是将三角形移动到原点),得到
1 2 ∣ x 1 y 1 1 x 2 − x 1 y 2 − y 1 0 x 3 − x 1 y 3 − y 1 0 ∣ \frac{1}{2}\begin{vmatrix}x_1&y_1&1\\x_2-x_1&y_2-y_1&0\\x_3-x_1&y_3-y_1&0\end{vmatrix} 21x1x2x1x3x1y1y2y1y3y1100

再按照第三列展开,得到三角形面积等于 ( x 2 − x 1 ) ( y 3 − y 1 ) − ( x 3 − x 1 ) ( y 2 − y 1 ) 2 \frac{(x_2-x_1)(y_3-y_1)-(x_3-x_1)(y_2-y_1)}{2} 2(x2x1)(y3y1)(x3x1)(y2y1)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

儒雅的钓翁

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值