第十六讲 投影矩阵(Ax=b)和最小二乘法
上一讲中,我们知道了投影矩阵P=A(ATA)−1ATP=A(A^TA)^{-1}A^TP=A(ATA)−1AT,PbPbPb将会把向量投影在AAA的列空间中。即只要知道矩阵AAA的列空间,就能得到投影矩阵PPP的导出式。
##1.投影矩阵(Ax=b无解的情形)
1.1两个极端的例子:
- 如果b∈C(A)b\in C(A)b∈C(A),则Pb=bPb=bPb=b;
- 如果b⊥C(A)b\bot C(A)b⊥C(A),则Pb=0Pb=0Pb=0。
证明1:Pb=A(ATA)−1ATb=A(ATA)−1ATAx=A((ATA−1)ATA)x=Ax=bPb = A(A^TA)^{-1}A^Tb\\
= A(A^TA)^{-1}A^TAx\\
=A((A^TA^{-1})A^TA)x
=Ax=bPb=A(ATA)−1ATb=A(ATA)−1ATAx=A((ATA−1)ATA)x=Ax=b
证明2:Pb=A(ATA)−1ATb=A(ATA−1)(ATb)=A((ATA−1)0=0Pb = A(A^TA)^{-1}A^Tb\\
= A(A^TA^{-1})(A^Tb)\\
=A((A^TA^{-1})0=0Pb=A(ATA)−1ATb=A(ATA−1)(ATb)=A((ATA−1)0=0
一般情况下,bbb将会有一个垂直于AAA的分量,有一个在AAA列空间中的分量,投影的作用就是去掉垂直分量而保留列空间中的分量。
1.2一般情形
一般情况下,bbb将会有一个垂直于AAA的分量,有一个在AAA列空间中的分量,投影的作用就是去掉垂直分量而保留列空间中的分量。如图:
向量b投影后,有b=e+p,p=Pb,e=(I−P)b,这里的p是b在C(A)中的分量,而e是b在N(AT)中的分量。b投影后,有b=e+p, p=Pb, e=(I-P)b,这里的p是b在C(A)中的分量,而e是b在N(A^T)中的分量。b投影后,有b=e+p,p=Pb,e=(I−P)b,这里的p是b在C(A)中的分量,而e是b在N(AT)中的分量。
可以理解为:向量bbb的投影在AAA的column space,error vector的投影在left null space上,我们知道PPP,可以将bbb 投影到ppp,那么一个什么样的投影矩阵把bbb投影到了eee?因为column space与left null space正交补,所以他们共同组成了整个空间,III的column space就是整个空间,I−PI−PI−P就是把bbb投影到eee的矩阵,它和PPP有意义的性质。
2. 最小二乘法(Ax=b)
回到上一讲最后提到的例题:
我们需要找到距离图中三个点 (1,1),(2,2),(3,2)(1, 1), (2, 2), (3, 2)(1,1),(2,2),(3,2) 偏差最小的直线:y=C+Dty=C+Dty=C+Dt。
根据条件可以得到方程组
{C+D=1C+2D=2C+3D=2\begin{cases}
C+D&=1 \\
C+2D&=2 \\
C+3D&=2 \\
\end{cases}⎩⎪⎨⎪⎧C+DC+2DC+3D=1=2=2
,写作矩阵形式 [111213][CD]=[122]\begin{bmatrix}1 &1 \\1 &2 \\1&3\\\end{bmatrix}\begin{bmatrix}C\\D\\\end{bmatrix}=\begin{bmatrix}1\\2\\2\\\end{bmatrix}⎣⎡111123⎦⎤[CD]=⎣⎡122⎦⎤,也就是我们的Ax=bAx=bAx=b,很明显方程组无解。
此时我们要找到最接近的解"最优解",我们要使得解最优即误差最小,定义误差为Ax−b=eAx−b=eAx−b=e的模长的平方即∥Ax−b∥2=∥e∥2=e21+e22+e23∥Ax−b∥_2=∥e∥_2=e_{21}+e_{22}+e_{23}∥Ax−b∥2=∥e∥2=e21+e22+e23。此处使用平方的原因一是排除开根号带来的非线性运算,一是方便利用偏导数求解最小值。
- 1.利用偏导求解
这里如果使用偏导数我们也能得到关于最优解的方程,展开结果为:
{∥e∥2=e12+e22+e22=(C+D−1)2+(C+2D−2)2+(C+3D−2)2=3C2+14D2+9−10C−22D+12CD\begin{cases}
∥e∥_2&=e_1^2+e_2^2+e_2^2\\
&=(C+D-1)^2+(C+2D-2)^2+(C+3D-2)^2\\
&=3C^2+14D^2+9−10C−22D+12CD\\
\end{cases}⎩⎪⎨⎪⎧∥e∥2=e12+e22+e22=(C+D−1)2+(C+2D−2)2+(C+3D−2)2=3C2+14D2+9−10C−22D+12CD
然后对CCC求偏导为6C−10+12D=06C-10+12D=06C−10+12D=0;对DDD求偏导为28D−22+12C=028D-22+12C=028D−22+12C=0。
解方程得C^=23,D^=12\hat C=\frac{2}{3}, \hat D=\frac{1}{2}C^=32,D^=21,则“最佳直线”为y=23+12ty=\frac{2}{3}+\frac{1}{2}ty=32+21t,带回原方程组解得p1=76,p2=53,p3=136p_1=\frac{7}{6}, p_2=\frac{5}{3}, p_3=\frac{13}{6}p1=67,p2=35,p3=613,即e1=−16,e2=13,e3=−16e_1=-\frac{1}{6}, e_2=\frac{1}{3}, e_3=-\frac{1}{6}e1=−61,e2=31,e3=−61。
于是我们得到p=[7653136],e=[−1613−16]p=\begin{bmatrix}\frac{7}{6}\\\frac{5}{3}\\\frac{13}{6}\end{bmatrix}, e=\begin{bmatrix}-\frac{1}{6}\\\frac{1}{3}\\-\frac{1}{6}\end{bmatrix}p=⎣⎡6735613⎦⎤,e=⎣⎡−6131−61⎦⎤,易看出b=p+eb=p+eb=p+e,同时我们发现p⋅e=0p\cdot e=0p⋅e=0即p⊥ep\bot ep⊥e。
可以验证,向量p 与e 正交,并且e 与矩阵A 的列空间正交。
pTe=7/6∗(−1/6)+5/3∗1/3+13/6∗(−1/6)=0eTa1=1∗(−1/6)+1∗1/3+1∗(−1/6)=0eTa2=1∗(−1/6)+2∗1/3+3∗(−1/6)=0p^Te=7/6*(-1/6)+5/3*1/3+13/6*(-1/6)=0\\
e^Ta_1=1*(-1/6)+1*1/3+1*(-1/6)=0\\
e^Ta_2=1*(-1/6)+2*1/3+3*(-1/6)=0pTe=7/6∗(−1/6)+5/3∗1/3+13/6∗(−1/6)=0eTa1=1∗(−1/6)+1∗1/3+1∗(−1/6)=0eTa2=1∗(−1/6)+2∗1/3+3∗(−1/6)=0
误差向量eee不仅垂直于投影向量ppp,它同时垂直于列空间,如 [111],[123]\begin{bmatrix}1\\1\\1\end{bmatrix}, \begin{bmatrix}1\\2\\3\end{bmatrix}⎣⎡111⎦⎤,⎣⎡123⎦⎤。
- 2.利用矩阵求解
用矩阵的方法求解Ax^=PbA\hat x=PbAx^=Pb得到的方程是一样的,现在我们尝试解出x^=[C^D^]\hat x=\begin{bmatrix}\hat C\\ \hat D\end{bmatrix}x^=[C^D^]与p=[p1p2p3]。p=\begin{bmatrix}p_1\\p_2\\p_3\end{bmatrix}。p=⎣⎡p1p2p3⎦⎤。
ATAx^=ATbATA=[36614]ATb=[511][36614][C^D^]=[511] A^TA\hat x=A^Tb\\ A^TA= \begin{bmatrix}3&6\\6&14\end{bmatrix}\qquad A^Tb= \begin{bmatrix}5\\11\end{bmatrix}\\ \begin{bmatrix}3&6\\6&14\end{bmatrix} \begin{bmatrix}\hat C\\\hat D\end{bmatrix}= \begin{bmatrix}5\\11\end{bmatrix}\\ ATAx^=ATbATA=[36614]ATb=[511][36614][C^D^]=[511]
写成方程形式为{3C^+16D^=56C^+14D^=11\begin{cases}3\hat C+16\hat D&=5\\6\hat C+14\hat D&=11\\\end{cases}{3C^+16D^6C^+14D^=5=11,也称作正规方程组(normalequations)\color{red}{正规方程组(normal equations)}正规方程组(normalequations)。
求的的结果是一样的。
我们现在做的运算也称作线性回归(linearregression)\color{red}{线性回归(linear regression)}线性回归(linearregression),使用误差的平方和作为测量总误差的标准\color{red}{测量总误差的标准}测量总误差的标准。
- 注:
如果有另一个点,如(0,100)(0, 100)(0,100),在本例中该点明显距离别的点很远,最小二乘将很容易被离群的点影响,通常使用最小二乘时会去掉明显离群的点\color{red}{通常使用最小二乘时会去掉明显离群的点}通常使用最小二乘时会去掉明显离群的点。
3.证明ATAA^TAATA可逆
###3.1 证明可逆
接下来我们观察ATAA^TAATA,如果A的各列线性无关,求证ATA是可逆矩阵\color{red}{如果A的各列线性无关,求证A^TA是可逆矩阵}如果A的各列线性无关,求证ATA是可逆矩阵。
先假设ATAx=0A^TAx=0ATAx=0,两边同时乘以xTx^TxT有xTATAx=0x^TA^TAx=0xTATAx=0,即(Ax)T(Ax)=0(Ax)^T(Ax)=0(Ax)T(Ax)=0。一个矩阵乘其转置结果为零,则这个矩阵也必须为零((Ax)T(Ax)(Ax)^T(Ax)(Ax)T(Ax)相当于AxAxAx长度的平方)。则Ax=0Ax=0Ax=0,结合题设中的“AAA的各列线性无关”,可知x=0x=0x=0,也就是ATAA^TAATA的零空间中有且只有零向量,得证。
###3.2互相垂直线性无关
我们再来看一种线性无关的特殊情况:互相垂直的单位向量一定是线性无关的\color{red}{互相垂直的单位向量一定是线性无关的}互相垂直的单位向量一定是线性无关的。
比如:[100][010][001]\begin{bmatrix}1\\0\\0\end{bmatrix}\begin{bmatrix}0\\1\\0\end{bmatrix}\begin{bmatrix}0\\0\\1\end{bmatrix}⎣⎡100⎦⎤⎣⎡010⎦⎤⎣⎡001⎦⎤,这三个正交单位向量也称作标准正交向量组(orthonormal vectors)。
另一个例子[cosθsinθ][−sinθcosθ]\begin{bmatrix}\cos\theta\\\sin\theta\end{bmatrix}\begin{bmatrix}-\sin\theta\\\cos\theta\end{bmatrix}[cosθsinθ][−sinθcosθ]
下一讲研究标准正交向量组。
4.总结
1.记住图的意义:
2.最小二乘法求解的意义。
3.ATAA^TAATA可逆的条件和正交向量组。
#第十七讲:正交矩阵和Gram-Schmidt正交化法
这是关于正交性最后一讲,已经知道正交空间,比如行空间和零空间,今天主要看正交基和正交矩阵
1.标准正交基与正交矩阵
###1.1 标准正交基
- 定义**标准正交向量\color{red}{标准正交向量}标准正交向量(orthonormal):qiTqj={0i≠j1i=jq_i^Tq_j=\begin{cases}0\quad i\neq j\\1\quad i=j\end{cases}qiTqj={0i=j1i=j;
2.将标准正交向量放入矩阵中,有Q=[q1q2⋯qn]Q=\Bigg[q_1 q_2 \cdots q_n\Bigg]Q=[q1q2⋯qn],计算QTQQ^TQQTQ
QTQ=[10⋯001⋯0⋮⋮⋱⋮00⋯1]=IQ^TQ=\begin{bmatrix}1& 0& \cdots& 0\\0& 1& \cdots& 0\\\vdots& \vdots& \ddots& \vdots\\0& 0& \cdots& 1\end{bmatrix}=IQTQ=⎣⎢⎢⎢⎡10⋮001⋮0⋯⋯⋱⋯00⋮1⎦⎥⎥⎥⎤=I
我们也把QQQ成为标准正交矩阵\color{red}{标准正交矩阵}标准正交矩阵**(orthonormal matrix)。
标准正交基:
- 举个置换矩阵的例子:Q=[010100001]Q=\begin{bmatrix}0& 1& 0\\1& 0& 0\\0& 0& 1\end{bmatrix}Q=⎣⎡010100001⎦⎤,则QT=[010001100]Q^T=\begin{bmatrix}0& 1& 0\\0& 0& 1\\1& 0& 0\end{bmatrix}QT=⎣⎡001100010⎦⎤,易得QTQ=IQ^TQ=IQTQ=I。
- 使用上一讲的例子Q=[cosθ−sinθsinθcosθ]Q=\begin{bmatrix}\cos\theta& -\sin\theta\\\sin\theta& \cos\theta\end{bmatrix}Q=[cosθsinθ−sinθcosθ],列向量长度为111,且列向量相互正交。
- 其他例子Q=12[111−1]Q=\frac{1}{\sqrt 2}\begin{bmatrix}1& 1\\1& -1\end{bmatrix}Q=21[111−1],列向量长度为111,且列向量相互正交。
- 使用上一个例子的矩阵,令Q′=c[QQQ−Q]Q'=c\begin{bmatrix}Q& Q\\Q& -Q\end{bmatrix}Q′=c[QQQ−Q],取合适的ccc另列向量长度为111也可以构造标准正交矩阵:Q=12[11111−11−111−1−11−1−11]Q=\frac{1}{2}\begin{bmatrix}1& 1& 1& 1\\1& -1& 1& -1\\1& 1& -1& -1\\1& -1& -1& 1\end{bmatrix}Q=21⎣⎢⎢⎡11111−11−111−1−11−1−11⎦⎥⎥⎤,这种构造方法以阿德玛(Adhemar)命名,对2,4,16,64,⋯2, 4, 16, 64, \cdots2,4,16,64,⋯阶矩阵有效。
- 再来看一个例子,Q=13[1−222−1−2221]Q=\frac{1}{3}\begin{bmatrix}1& -2& 2\\2& -1& -2\\2& 2& 1\end{bmatrix}Q=31⎣⎡122−2−122−21⎦⎤,列向量长度为111,且列向量相互正交。格拉姆-施密特正交化法的缺点在于,由于要求得单位向量,所以我们总是除以向量的长度,这导致标准正交矩阵中总是带有根号,而上面几个例子很少有根号。
**标准正交矩阵 **
QTQQ^TQQTQ对任意的QQQ都成立,但我们更关注QQQ为方阵时的情况,因为其有逆且由QTQ=I⇒Q−1=QTQ^TQ=I⇒Q^{−1}=Q^TQTQ=I⇒Q−1=QT,我们叫这种column vector为标准正交向量组成且为方阵的矩阵为正交矩阵 orthogonal matrix。
注意:标准正交矩阵 orthogonormal matrix不一定是方阵,当它是方阵的时候,我们叫它正交矩阵 orthogonal matrix。
1.2正交矩阵
为什么我们如此关注标准正交矩阵 orthogonormal matrix为方阵 的情形?
上一讲我们研究了ATAA^TAATA的特性,联系我们之前学习的投影矩阵projection matrix,将向量bbb投影在标准正交矩阵QQQ的列空间中,根据上一讲的公式得P=Q(QTQ)−1QTP=Q(Q^TQ)^{-1}Q^TP=Q(QTQ)−1QT,由于标准正交矩阵QQQ的性质,易得P=QQTP=QQ^TP=QQT。
我们断言,当列向量为标准正交基时,QQTQQ^TQQT是投影矩阵。极端情况,假设矩阵是方阵,而其列向量是标准正交的,则其列空间就是整个向量空间,而投影整个空间的投影矩阵就是单位矩阵,此时QQT=IQQ^T=IQQT=I。
投影矩阵的两个性质:
- (QQT)T=QQT(QQ^T)^T=QQ^T(QQT)T=QQT,
证明:(QQT)T=(QT)TQT=QQT(QQ^T)^T=(Q^T)^TQ^T=QQ^T(QQT)T=(QT)TQT=QQT2.(QQT)2=QQT(QQ^T)^2=QQ^T(QQT)2=QQT
证明:(QQT)2=QQTQQT=Q(QTQ)QT=QQT(QQ^T)^2=QQ^TQQ^T=Q(Q^TQ)Q^T=QQ^T(QQT)2=QQTQQT=Q(QTQ)QT=QQT
我们计算的ATAx^=ATb\color{red}{我们计算的A^TA\hat x=A^Tb}我们计算的ATAx^=ATb,现在变为QTQx^=QTbQ^TQ\hat x=Q^TbQTQx^=QTb,也就是x^=QTb\hat x=Q^Tbx^=QTb,分解开来看就是 x^i=qiTb‾\underline{\hat x_i=q_i^Tb}x^i=qiTb,这个式子在很多数学领域都有重要作用。当我们知道标准正交基,则解向量第iii个分量为基的第iii个分量乘以b,在第iii个基方向上的投影就等于q_i^Tb。}$
##2. Gram-Schmidt正交化法
这是一种将矩阵转化为标准正交向量orthogonormal matrix的方法。按老师的说法Schmidt教我们如何将一个向量标准化normalized,而Graham教我们如何使得各个向量正交orthogonal。
总思路:
已知相互无关的向量aaa,bbb,目标要将aaa,bbb 变成相互正交且长度为$1 的的的q_1,,,q_2,可将向量,可将向量,可将向量a$ 固定,然后bbb投影到$a 上,误差上,误差上,误差e=B$.
我们有两个线性无关的向量a,ba, ba,b,先把它们化为单位正交向量A,BA, BA,B:
- 我们取定aaa向量的方向,a=Aa=Aa=A;
- 接下来将bbb投影在AAA的法方向上得到BBB,也就是求子空间投影一讲中,我们提到的误差向量e=b−pe=b-pe=b−p,即B=b−ATbATAAB=b-\frac{A^Tb}{A^TA}AB=b−ATAATbA。检验一下A⊥BA\bot BA⊥B,ATB=ATb−ATATbATAA=ATb−ATAATAATb=0A^TB=A^Tb-A^T\frac{A^Tb}{A^TA}A=A^Tb-\frac{A^TA}{A^TA}A^Tb=0ATB=ATb−ATATAATbA=ATb−ATAATAATb=0。(ATbATAA\frac{A^Tb}{A^TA}AATAATbA就是Ax^=pA\hat x=pAx^=p);
- 再将它们单位化,变为单位正交向量q1=A∥A∥,q2=B∥B∥q_1=\frac{A}{\left\|A\right\|}, q_2=\frac{B}{\left\|B\right\|}q1=∥A∥A,q2=∥B∥B。
如果我们有三个线性无关的向量a,b,ca, b, ca,b,c,则我们现需要求它们变换成单位正交向量A,B,CA, B, CA,B,C:
- 前两个向量我们已经得到了,我们现在需要求第三个向量同时正交于A,BA, BA,B;
- 我们依然沿用上面的方法,从ccc中减去其在A,BA, BA,B上的分量,得到正交与A,BA, BA,B的CCC:C=c−ATcATAA−BTcBTBBC=c-\frac{A^Tc}{A^TA}A-\frac{B^Tc}{B^TB}BC=c−ATAATcA−BTBBTcB;
- 再将它们单位化,变为单位正交向量q1=A∥A∥,q2=B∥B∥,q3=C∥C∥q_1=\frac{A}{\left\|A\right\|}, q_2=\frac{B}{\left\|B\right\|}, q_3=\frac{C}{\left\|C\right\|}q1=∥A∥A,q2=∥B∥B,q3=∥C∥C。
例子:
现在我们试验一下推导出来的公式,a=[111],b=[102]a=\begin{bmatrix}1\\1\\1\end{bmatrix}, b=\begin{bmatrix}1\\0\\2\end{bmatrix}a=⎣⎡111⎦⎤,b=⎣⎡102⎦⎤:
则A=a=[111]A=a=\begin{bmatrix}1\\1\\1\end{bmatrix}A=a=⎣⎡111⎦⎤;
根据公式有B=a−hAB=a-hAB=a−hA,hhh是比值ATbATA=33\frac{A^Tb}{A^TA}=\frac{3}{3}ATAATb=33,则B=[111]−33[102]=[0−11]B=\begin{bmatrix}1\\1\\1\end{bmatrix}-\frac{3}{3}\begin{bmatrix}1\\0\\2\end{bmatrix}=\begin{bmatrix}0\\-1\\1\end{bmatrix}B=⎣⎡111⎦⎤−33⎣⎡102⎦⎤=⎣⎡0−11⎦⎤。验证一下正交性有A⋅B=0A\cdot B=0A⋅B=0。
单位化,q1=13[111],q2=12[102]q_1=\frac{1}{\sqrt 3}\begin{bmatrix}1\\1\\1\end{bmatrix},\quad q_2=\frac{1}{\sqrt 2}\begin{bmatrix}1\\0\\2\end{bmatrix}q1=31⎣⎡111⎦⎤,q2=21⎣⎡102⎦⎤,则标准正交矩阵为Q=[13013−121312]Q=\begin{bmatrix}\frac{1}{\sqrt 3}& 0\\\frac{1}{\sqrt 3}& -\frac{1}{\sqrt 2}\\\frac{1}{\sqrt 3}& \frac{1}{\sqrt 2}\end{bmatrix}Q=⎣⎢⎡3131310−2121⎦⎥⎤,对比原来的矩阵D=[111012]D=\begin{bmatrix}1& 1\\1& 0\\1& 2\end{bmatrix}D=⎣⎡111102⎦⎤,有D,QD, QD,Q的列空间是相同的,我们只是将原来的基标准正交化了。
##3.QR分解
我们曾经用矩阵的眼光审视消元法,有A=LUA=LUA=LU。同样的,我们也用矩阵表达标准正交化,A=QRA=QRA=QR,这里的RRR是一个上三角矩阵upper triangular matrix 。
设矩阵AAA有两个列向量[a1a2]\Bigg[a_1 a_2\Bigg][a1a2],则标准正交化后有[a1a2]=[q1q2][a1Tq1a2Tq1a1Tq2a2Tq2]\Bigg[a_1 a_2\Bigg]=\Bigg[q_1 q_2\Bigg]\begin{bmatrix}a_1^Tq_1& a_2^Tq_1\\a_1^Tq_2& a_2^Tq_2\end{bmatrix}[a1a2]=[q1q2][a1Tq1a1Tq2a2Tq1a2Tq2],而左下角的a1Tq2a_1^Tq_2a1Tq2始终为000,因为Gram-Schmidt正交化总是使得a1⊥q2a_1\bot q_2a1⊥q2,后来构造的向量总是正交于先前的向量。所以这个RRR矩阵是一个上三角矩阵。
##4.总结
1.标准正交基与正交矩阵;
2.Gram-Schmidt正交标准化;
3.QR分解(与LU分解的区别)。
#第十八讲:行列式及其性质
- 行列式最早是应用在用来判断方程组是否有解,在矩阵被发明后,行列式就拥有了更多的性质和应用。其强大之处在于将整个矩阵的信息压缩到了一个值当中。
- 行列式的英文名为determinant:决定因素,因为他可以决定方程组是否有解即矩阵是否可逆,从另外一个角度来理解,行列式代表了这个矩阵的特征,这是学习特征分解的前置概念。
##1.基础性质
本讲我们讨论出行列式(determinant)的性质:
行列式的基本性质:
性质1: detI=1,单位矩阵行列式值为一。\color{red}{\det{I}=1,单位矩阵行列式值为一。}detI=1,单位矩阵行列式值为一。
性质2:交换行,行列式变号。\color{red}{交换行,行列式变号。}交换行,行列式变号。
性质3: a. ∣tatbtctd∣=t∣abcd∣。\color{red}{\begin{vmatrix}ta& tb\\tc& td\end{vmatrix}=t\begin{vmatrix}a& b\\c& d\end{vmatrix}。 }∣∣∣∣tatctbtd∣∣∣∣=t∣∣∣∣acbd∣∣∣∣。
b. ∣a+a′b+b′cd∣=∣abcd∣+∣a′b′cd∣。\color{red}{\begin{vmatrix}a+a'& b+b'\\c& d\end{vmatrix}=\begin{vmatrix}a& b\\c& d\end{vmatrix}+\begin{vmatrix}a'& b'\\c& d\end{vmatrix}。}∣∣∣∣a+a′cb+b′d∣∣∣∣=∣∣∣∣acbd∣∣∣∣+∣∣∣∣a′cb′d∣∣∣∣。
由性质1和2可知,对置换矩阵有detP={1even−1odd\det P=\begin{cases}1\quad & even\\-1\quad & odd\end{cases}detP={1−1evenodd。
举例:∣1001∣=1,∣0110∣=−1\begin{vmatrix}1& 0\\0& 1\end{vmatrix}=1,\quad\begin{vmatrix}0& 1\\1& 0\end{vmatrix}=-1∣∣∣∣1001∣∣∣∣=1,∣∣∣∣0110∣∣∣∣=−1,于是我们猜想,对于二阶方阵,行列式的计算公式为∣abcd∣=ad−bc\begin{vmatrix}a& b\\c& d\end{vmatrix}=ad-bc∣∣∣∣acbd∣∣∣∣=ad−bc。
性质3(b)对于每行都单独成立,其他行则不变,即不能同时组合第一行和第二行。$det(A+B)≠det(A)+det(B) $。
2. 推导出的性质
更多的性质可以从以上的三条性质中推导出来。
性质4:如果两行相等,则行列式为零。使用性质2交换两行易证。\color{red}{如果两行相等,则行列式为零。使用性质2交换两行易证。}如果两行相等,则行列式为零。使用性质2交换两行易证。
**性质5 **:从第k行中减去第i行的l倍,行列式不变。\color{red}{从第k行中减去第i行的l倍,行列式不变。}从第k行中减去第i行的l倍,行列式不变。
解析:这条性质是针对消元的,我们可以先消元,将方阵变为上三角形式后再计算行列式。
举例:∣abc−lad−lb∣=3.b∣abcd∣+∣ab−la−lb∣=3.a∣abcd∣−l∣abab∣=4∣abcd∣\begin{vmatrix}a& b\\c-la& d-lb\end{vmatrix}\stackrel{3.b}{=}\begin{vmatrix}a& b\\c& d\end{vmatrix}+\begin{vmatrix}a& b\\-la& -lb\end{vmatrix}\stackrel{3.a}{=}\begin{vmatrix}a& b\\c& d\end{vmatrix}-l\begin{vmatrix}a& b\\a& b\end{vmatrix}\stackrel{4}{=}\begin{vmatrix}a& b\\c& d\end{vmatrix}∣∣∣∣ac−labd−lb∣∣∣∣=3.b∣∣∣∣acbd∣∣∣∣+∣∣∣∣a−lab−lb∣∣∣∣=3.a∣∣∣∣acbd∣∣∣∣−l∣∣∣∣aabb∣∣∣∣=4∣∣∣∣acbd∣∣∣∣
性质6:如果方阵的某一行为零,则其行列式值为零。\color{red}{如果方阵的某一行为零,则其行列式值为零。}如果方阵的某一行为零,则其行列式值为零。
证明:使用性质3(a)对为零行乘以不为零系数lll,使ldetA=detAl\det A=\det AldetA=detA即可证明;或使用性质5将某行加到为零行,使存在两行相等后使用性质4即可证明。
性质7:有上三角行列式U=∣d1∗⋯∗0d2⋯∗⋮⋮⋱⋮00⋯dn∣,则detU=d1d2⋯dn。\color{red}{有上三角行列式U=\begin{vmatrix}d_{1}& *& \cdots& *\\0& d_{2}& \cdots& *\\\vdots& \vdots& \ddots& \vdots\\0& 0& \cdots& d_{n}\end{vmatrix},则\det U=d_1d_2\cdots d_n。}有上三角行列式U=∣∣∣∣∣∣∣∣∣d10⋮0∗d2⋮0⋯⋯⋱⋯∗∗⋮dn∣∣∣∣∣∣∣∣∣,则detU=d1d2⋯dn。
证明:使用性质5,从最后一行开始,将对角元素上方的∗*∗元素依次变为零,可以得到型为D=∣d10⋯00d2⋯0⋮⋮⋱⋮00⋯dn∣D=\begin{vmatrix}d_{1}& 0& \cdots& 0\\0& d_{2}& \cdots& 0\\\vdots& \vdots& \ddots& \vdots\\0& 0&\cdots&d_{n}\end{vmatrix}D=∣∣∣∣∣∣∣∣∣d10⋮00d2⋮0⋯⋯⋱⋯00⋮dn∣∣∣∣∣∣∣∣∣的对角行列式,再使用性质3将对角元素提出得到dndn−1⋯d1∣10⋯001⋯0⋮⋮⋱⋮00⋯1∣d_nd_{n-1}\cdots d_1\begin{vmatrix}1& 0& \cdots& 0\\0& 1& \cdots& 0\\\vdots& \vdots& \ddots& \vdots\\0& 0& \cdots& 1\end{vmatrix}dndn−1⋯d1∣∣∣∣∣∣∣∣∣10⋮001⋮0⋯⋯⋱⋯00⋮1∣∣∣∣∣∣∣∣∣,得证。
性质8:当矩阵A为奇异矩阵时,detA=0;当且仅当A可逆时,有detA≠0\color{red}{当矩阵A为奇异矩阵时,\det A=0;当且仅当A可逆时,有\det A\neq0}当矩阵A为奇异矩阵时,detA=0;当且仅当A可逆时,有detA=0。
证明:如果矩阵可逆,则化简为上三角形式后各行都含有主元,行列式即为主元乘积;如果矩阵奇异,则化简为上三角形式时会出现全零行,行列式为零。
再回顾二阶情况:∣abcd∣→消元∣ab0d−cab∣=ad−bc\begin{vmatrix}a& b\\c& d\end{vmatrix}\xrightarrow{消元}\begin{vmatrix}a& b\\0& d-\frac{c}{a}b\end{vmatrix}=ad-bc∣∣∣∣acbd∣∣∣∣消元∣∣∣∣a0bd−acb∣∣∣∣=ad−bc,前面的猜想得到证实。性质9:detAB=(detA)(detB)\color{red}{\det AB=(\det A)(\det B)}detAB=(detA)(detB)。
解析:使用这一性质,detI=detA−1A=detA−1detA\det I=\det{A^{-1}A}=\det A^{-1}\det AdetI=detA−1A=detA−1detA,所以detA−1=1detA\det A^{-1}=\frac{1}{\det A}detA−1=detA1。
同时还可以得到:detA2=(detA)2\det A^2=(\det A)^2detA2=(detA)2,以及det2A=2ndetA\det 2A=2^n\det Adet2A=2ndetA,这个式子就像是求体积,对三维物体有每边翻倍则体积变为原来的八倍。性质10:detAT=detA。\color{red}{\det A^T=\det A。}detAT=detA。
前面一直在关注行的属性给行列式带来的变化,有了这条性质,行的属性同样适用于列,比如对性质2就有“交换列行列式变号”。\color{red}{前面一直在关注行的属性给行列式带来的变化,有了这条性质,行的属性同样适用于列,比如对性质2就有“交换列行列式变号”。}前面一直在关注行的属性给行列式带来的变化,有了这条性质,行的属性同样适用于列,比如对性质2就有“交换列行列式变号”。
证明:∣AT∣=∣A∣→∣UTLT∣=∣LU∣→∣UT∣∣LT∣=∣L∣∣U∣\left|A^T\right|=\left|A\right|\rightarrow\left|U^TL^T\right|=\left|LU\right|\rightarrow\left|U^T\right|\left|L^T\right|=\left|L\right|\left|U\right|∣∣AT∣∣=∣A∣→∣∣UTLT∣∣=∣LU∣→∣∣UT∣∣∣∣LT∣∣=∣L∣∣U∣,值得注意的是,L,UL, UL,U的行列式并不因为转置而改变,得证。