机器学习之重温线性代数

目录

一、矩阵的基本概念和意义

定义1 m × n m\times n m×n个数 a i j a_{ij} aij( i = 1 , 2 , . . . m i=1,2,...m i=1,2,...m; j = 1 , 2... n j=1,2...n j=1,2...n)排成 m m m n n n列的数表

a 11 a 12 . . . a 1 n a 21 a 22 . . . a 2 n ⋮ ⋮ ⋱ ⋮ a m 1 a m 2 ⋮ a m n \begin{matrix} a_{11} &a_{12} &... & a_{1n}\\ a_{21} &a_{22} &... & a_{2n}\\ \vdots & \vdots &\ddots &\vdots \\ a_{m1}&a_{m2} &\vdots &a_{mn} \end{matrix} a11a21am1a12a22am2......a1na2namn
称为 m m m n n nl列矩阵,简称 m × n m\times n m×n矩阵,为表示它是一个整数,总是加一个括弧,并用大写黑体字母表示它,记作

A = [ a 11 a 12 . . . a 1 n a 21 a 22 . . . a 2 n ⋮ ⋮ ⋱ ⋮ a m 1 a m 2 ⋮ a m n ] A = \begin{bmatrix} a_{11} &a_{12} &... & a_{1n}\\ a_{21} &a_{22} &... & a_{2n}\\ \vdots & \vdots &\ddots &\vdots \\ a_{m1}&a_{m2} &\vdots &a_{mn} \end{bmatrix} A=a11a21am1a12a22am2......a1na2namn

m × n m\times n m×n个数称为矩阵 A A A的元素,简称元。数 a i j a_{ij} aij位于矩阵的第 i i i行第 j j j列,称为矩阵 A A A ( i , j ) (i,j) (i,j)元,以数 a i j a_{ij} aij ( i , j ) (i,j) (i,j)元的矩阵可简记为 ( a i j ) (a_{ij}) (aij) ( a i j ) m × n (a_{ij})_{m\times n} (aij)m×n, m × n m\times n m×n矩阵 A A A也记作 A m × n A_{m\times n} Am×n

什么时候是方阵呢?就是当 m = n m = n m=n的时候。

什么是行向量呢?就是当 m = 1 m = 1 m=1

什么是列向量呢?就是当 n = 1 n = 1 n=1

什么是两个矩阵相等呢? 就是两个矩阵对应的元素相等

什么是零矩阵?就是矩阵所有的元素都为0

探讨矩阵的意义

1、一种线性变换

{ y 1 = a 11 × x 1 + a 12 × x 2 + ⋯ + a 1 n × x n y 2 = a 21 × x 1 + a 22 × x 2 + ⋯ + a 2 n × x n ⋯ y m = a m 1 × x 1 + a m 2 × x 2 + ⋯ + a m n × x n \left\{\begin{matrix} y_{1}=a_{11}\times x_{1} + a_{12}\times x_{2} + \cdots + a_{1n}\times x_{n}\\ y_{2} = a_{21}\times x_{1}+a_{22}\times x_{2} + \cdots + a_{2n}\times x_{n}\\ \cdots \\ y_{m} = a_{m1}\times x_{1}+a_{m2}\times x_{2} + \cdots + a_{mn}\times x_{n} \end{matrix}\right. y1=a11×x1+a12×x2++a1n×xny2=a21×x1+a22×x2++a2n×xnym=am1×x1+am2×x2++amn×xn
表示一个从变量 x 1 , x 2 , ⋯ x n x_{1},x_{2}, \cdots x_{n} x1,x2,xn到变量 y 1 , y 2 , ⋯ y m y_{1},y_{2}, \cdots y_{m} y1,y2,ym线性变换,其中系数 a i j a_{ij} aij构成矩阵 A = ( a i j ) m × n A = (a_{ij})_{m \times n} A=(aij)m×n

恒等变换就是矩阵 A A A为单位矩阵

对角矩阵即除了对角之外,其他元素都为零

2、加法与数乘

定义2, 设有两个 m × n m\times n m×n矩阵 A = ( a i j ) A = (a_{ij}) A=(aij)和矩阵 B = ( b i j ) B = (b_{ij}) B=(bij),那么矩阵 A A A与矩阵 B B B的和记作 A + B A+B A+B,规定为

A + B = [ a 11 + b 11 a 12 + b 12 ⋯ a 1 n + b 1 n a 21 + b 21 a 22 + b 22 ⋯ a 2 n + b 2 n ⋮ ⋮ ⋱ ⋮ a m 1 + b m 1 a m 2 + b m 2 ⋯ a m n + b m n ] A+B = \begin{bmatrix} a_{11}+b_{11} &a_{12}+b_{12} &\cdots & a_{1n}+b_{1n}\\ a_{21}+b_{21}&a_{22}+b_{22} &\cdots &a_{2n}+b_{2n} \\ \vdots& \vdots & \ddots & \vdots\\ a_{m1}+b_{m1}&a_{m2}+b_{m2} &\cdots &a_{mn}+b_{mn} \end{bmatrix} A+B=a11+b11a21+b21am1+bm1a12+b12a22+b22am2+bm2a1n+b1na2n+b2namn+bmn

A , B , C A,B,C A,B,C都是 m × n m \times n m×n的矩阵,满足加法运算律

( A + B ) = ( B + A ) (A+B) = (B+A) (A+B)=(B+A)

( A + B ) + C = A + ( B + C ) (A+B)+C = A + (B+C) (A+B)+C=A+(B+C)

注意:只有当两个矩阵是同型矩阵时,这两个矩阵才可以进行加法运算

定义3,数 λ \lambda λ与矩阵 A A A的乘积记作 λ A \lambda A λA或者 A λ A \lambda Aλ,规定为
λ A = A λ = [ λ a 11 λ a 12 ⋯ λ a 1 n λ a 21 λ a 22 ⋯ λ a 2 n ⋮ ⋮ ⋱ ⋮ λ a m 1 λ a m 2 ⋯ λ a m n ] \lambda A =A \lambda = \begin{bmatrix} \lambda a_{11}&\lambda a_{12} &\cdots &\lambda a_{1n} \\ \lambda a_{21}&\lambda a_{22} &\cdots & \lambda a_{2n}\\ \vdots& \vdots & \ddots &\vdots \\ \lambda a_{m1}&\lambda a_{m2} &\cdots &\lambda a_{mn} \end{bmatrix} λA=Aλ=λa11λa21λam1λa12λa22λam2λa1nλa2nλamn

λ , μ ∈ R \lambda ,\mu \in R λ,μR, A A A m × n m \times n m×n矩阵,
满足以下规律

(i) ( λ μ ) A = λ ( μ ) A (\lambda \mu) A = \lambda(\mu)A (λμ)A=λ(μ)A

(ii) ( λ + μ ) A = λ A + μ A (\lambda + \mu)A = \lambda A + \mu A (λ+μ)A=λA+μA

(iii) λ ( A + B ) = λ A + λ B \lambda (A+B) = \lambda A + \lambda B λ(A+B)=λA+λB

3.矩阵的乘法

定义4 A = ( a i j ) A = \left( a_{ij}\right) A=(aij)是一个 m × s m \times s m×s矩阵, B = ( b i j ) B = \left(b_{ij}\right) B=(bij)是一个 s × n s\times n s×n的矩阵,那么规定矩阵 A A A与矩阵 B B B的乘积是一个 m × n m \times n m×n矩阵 C = ( c i j ) C = \left(c_{ij}\right) C=(cij),
其中

c i j = a i 1 b 1 j + a i 2 b 2 j + ⋯ + a i s b s j = ∑ k = 1 s a i k b s k c_{ij} = a_{i1}b_{1j} + a_{i2}b_{2j}+ \cdots+a_{is}b_{sj} = \sum_{k=1}^{s}a_{ik}b_{sk} cij=ai1b1j+ai2b2j++aisbsj=k=1saikbsk
( i = 1 , 2 , ⋯ m ; j = 1 , 2 ⋯ n ) (i = 1,2,\cdots m; j = 1,2 \cdots n) (i=1,2,m;j=1,2n),

并把这次成绩记作 C = A × B C=A \times B C=A×B

设有矩阵 A , B , C A,B,C A,B,C,则满足规律

(i) ( A B ) C = A ( B C ) (AB)C = A(BC) (AB)C=A(BC)

(ii) λ ( A B ) = ( λ A ) B = A ( λ B ) \lambda (AB) = (\lambda A)B = A(\lambda B) λ(AB)=(λA)B=A(λB)

(iii) A ( B + C ) = A B + A C , ( B + C ) A = B C + C A A(B+C) = AB+AC,(B+C)A = BC+CA A(B+C)=AB+AC,(B+C)A=BC+CA

二、矩阵运算在深度学习中的应用(初级)

1.数字图像识别

输入一张为数字(0-9)的图片,大小为 10 × 10 10 \times 10 10×10,下面图片也可以体现出矩阵是一种特征空间的变换

-w15

单样本:
( x 1 , x 2 , ⋯   , x 100 ) w 1 = ( y 1 , y 2 , ⋯   , y 512 ) (x_{1},x_{2},\cdots,x_{100})w_{1} = (y_{1},y_{2},\cdots,y_{512}) (x1,x2,,x100)w1=(y1,y2,,y512)
( z 1 , z 2 , ⋯   , z 512 ) w 2 = ( O 1 , O 2 , ⋯   , O 10 ) (z_{1},z_{2},\cdots,z_{512})w_{2} = (O_{1},O_{2},\cdots,O_{10}) (z1,z2,,z512)w2=(O1,O2,,O10)

关于 r e l u relu relu函数如下:

r e l u ( x ) = { x x > 0 0 x ⩽ 0 relu(x) = \left\{\begin{matrix} x & x>0\\ 0& x\leqslant 0 \end{matrix}\right. relu(x)={x0x>0x0

n n n个样本:
[ x 11 x 12 ⋯ x 1 , 100 ⋮ ⋮ ⋮ x n 1 x n 2 ⋯ x n , 100 ] w 1 = [ y 11 y 12 ⋯ y 1 , 512 ⋮ ⋮ ⋮ y n 1 y n 2 ⋯ y n , 512 ] \begin{bmatrix} x_{11}&x_{12}&\cdots&x_{1,100}\\ \vdots&\vdots&&\vdots\\ \\ x_{n1}&x_{n2}&\cdots&x_{n,100} \end{bmatrix}w_{1} = \begin{bmatrix} y_{11}&y_{12}&\cdots&y_{1,512}\\ \vdots&\vdots&&\vdots\\ \\ y_{n1}&y_{n2}&\cdots&y_{n,512} \end{bmatrix} x11xn1x12xn2x1,100xn,100w1=y11yn1y12yn2y1,512yn,512

[ z 11 z 12 ⋯ x 1 , 512 ⋮ ⋮ ⋮ z n 1 z n 2 ⋯ z n , 512 ] w 2 = [ O 11 O 12 ⋯ O 1 , 10 ⋮ ⋮ ⋮ O n 1 O n 2 ⋯ O n , 10 ] \begin{bmatrix} z_{11}&z_{12}&\cdots&x_{1,512}\\ \vdots&\vdots&&\vdots\\ \\ z_{n1}&z_{n2}&\cdots&z_{n,512} \end{bmatrix}w_{2} = \begin{bmatrix} O_{11}&O_{12}&\cdots&O_{1,10}\\ \vdots&\vdots&&\vdots\\ \\ O_{n1}&O_{n2}&\cdots&O_{n,10} \end{bmatrix} z11zn1z12zn2x1,512zn,512w2=O11On1O12On2O1,10On,10

2.矩阵的迹,矩阵的转置,对称矩阵(协方差矩阵)

1.矩阵的迹

定义: 在线性代数中,一个 n × n n\times n n×n的矩阵 A A A的主对角线(从左上方至右下方的对角线)上各个元素的总和被称为矩阵 A A A的迹(或迹数),一般记作 t r ( A ) tr(A) tr(A)
t r ( A ) = ∑ i = 1 n a i i tr(A) = \sum_{i=1}^{n}a_{ii} tr(A)=i=1naii

结论 $\$ t r ( A B ) = T R ( A B ) tr(AB) = TR(AB) tr(AB)=TR(AB)对于满足矩阵乘法条件(型号匹配的)任意 A m × n A_{m \times n} Am×n B n × m B_{n \times m} Bn×m均成立。

证明

C = ( A B ) m × m C = (AB)_{m \times m} C=(AB)m×m , D = ( B A ) n × n D = (BA)_{n \times n} D=(BA)n×n

所以, t r ( A B ) = ∑ i = 1 m c i i = ∑ i = 1 m ∑ s = 1 n a i s b s i tr(AB)=\sum_{i=1}^{m}c_{ii}=\sum_{i=1}^{m}\sum_{s=1}^{n}a_{is}b_{si} tr(AB)=i=1mcii=i=1ms=1naisbsi
同时, t r ( B A ) = ∑ i = 1 n d i i = ∑ s = 1 n ∑ i = 1 m b s i a i s tr(BA)=\sum_{i=1}^{n}d_{ii} = \sum_{s=1}^{n}\sum_{i=1}^{m}b_{si}a_{is} tr(BA)=i=1ndii=s=1ni=1mbsiais
又因为求和可交换,则最后可得 t r ( A B ) = t r ( B A ) tr(AB)=tr(BA) tr(AB)=tr(BA)

2.矩阵的转置

定义: 把矩阵 A A A的行换成同序数的列得到的一个新矩阵,叫做矩阵的转置,记作 A T . A^{T}. AT.

性质:(i) ( A T ) T = A (A^{T})^{T} = A (AT)T=A
(ii) ( A + B ) T = A T + B T (A+B)^{T}=A^{T}+B^{T} (A+B)T=AT+BT
(iii) ( λ A ) T = λ A T (\lambda A)^{T}=\lambda A^{T} (λA)T=λAT
( A B ) T = B T A T (AB)^{T}=B^{T}A^{T} (AB)T=BTAT

3.对称矩阵

定义: A A A为n阶方阵,如果满足 A T = A A^{T}=A AT=A,即 a i j = a j i , ( i , j = 1 , 2 , ⋯   , n ) a_{ij}=a_{ji},(i,j=1,2,\cdots,n) aij=aji,(i,j=1,2,,n)那么称 A A A为对称矩阵.

4.协方差矩阵

N N N个样本,每个样本的特征的维度为 n n n,容易证明协方差矩阵是对称矩阵

X = ( x 1 T ⋮ x N T ) N × n X=\begin{pmatrix} x_{1}^{T}\\ \vdots\\ x_{N}^{T} \end{pmatrix}_{N\times n} X=x1TxNTN×n, X T = ( x 1 , x 2 , ⋯   , x N ) n × N X^{T}=\begin{pmatrix} x_{1},x_{2},\cdots,x_{N} \end{pmatrix}_{n\times N} XT=(x1,x2,,xN)n×N

X T X X^{T}X XTX为样本的协方差矩阵。

3.行列式的引入

定义: 关于行列式的引入可从解方程的角度去看,例如二阶行列式,采用消元法解二元线性方程组,具体此处省略.
∣ a b c d ∣ = a d − b c \begin{vmatrix} a&b\\ c&d \end{vmatrix} =ad-bc acbd=adbc为二阶行列式

1.特殊矩阵的行列式

∣ λ 11 λ 22 ⋱ λ n ∣ = λ 1 λ 2 ⋯ λ n \begin{vmatrix} \lambda_{11}\\ &\lambda_{22}\\ & &\ddots\\ & & &\lambda_{n} \end{vmatrix}=\lambda_{1}\lambda_{2} \cdots \lambda_{n} λ11λ22λn=λ1λ2λn
∣ λ 1 λ 2 ⋯ λ n ∣ = ( − 1 ) n ( n − 1 ) 2 λ 1 λ 2 ⋯ λ n \qquad \quad\begin{vmatrix} & & & \lambda_{1}\\ & &\lambda_{2}\\ & \cdots \\ \lambda_{n} \end{vmatrix}=(-1)^{\frac{n(n-1)}{2}}\lambda_{1}\lambda_{2}\cdots\lambda_{n} λnλ2λ1=(1)2n(n1)λ1λ2λn

D = ∣ a 11 ⋯ ⋯ 0 a 21 a 22 ⋮ ⋮ ⋱ a n 1 a n 2 ⋯ a n n ∣ = a 11 a 22 ⋯ a n n D=\begin{vmatrix} a_{11}& \cdots& \cdots&0 \\ a_{21}&a_{22}& & \\ \vdots&\vdots &\ddots &\\ a_{n1}&a_{n2}&\cdots&a_{nn} \end{vmatrix}=a_{11}a_{22}\cdots a_{nn} D=a11a21an1a22an20ann=a11a22ann

2.行列式的性质

(1) 行列式与它的转置行列式相等

(2)互换行列式的两行(列),行列式变号。

推论: 如果行列式有两行(行列)完全相同,则次行列式为零。

(3)行列式的某一行(列)中所有元素都乘以同一数 k k k,等于用 k k k乘以此行列式.

(4) 行列式中如果两行(列)的元素成比例,则此行列式等于零。

(5) 把行列式的某一行(列)的各元素乘以同一数然后加到另一行(列)的元素上去,h行列式不变。

(6) ∣ a 11 ⋯ a 1 k ⋮ ⋮ a k 1 ⋯ a k k c 11 ⋯ c 1 k b 11 ⋯ a 1 n ⋮ ⋮ ⋮ ⋮ c n 1 ⋯ c n k b n 1 ⋯ b n n ∣ \begin{vmatrix} a_{11}&\cdots&a_{1k}& & \\ \vdots& &\vdots& & \\ a_{k1}&\cdots&a_{kk} & \\ c_{11}&\cdots&c_{1k}& b_{11}&\cdots&a_{1n}\\ \vdots& & \vdots& \vdots& & \vdots& \\ c_{n1}& \cdots&c_{nk}& b_{n1}&\cdots&b_{nn} \end{vmatrix} a11ak1c11cn1a1kakkc1kcnkb11bn1a1nbnn

D 1 = d e t ( a i j ) = ∣ a 11 ⋯ a 1 k ⋮ ⋮ a k 1 ⋯ a k k ∣ D 2 = ∣ b 11 ⋯ b 1 k ⋮ ⋮ b n 1 ⋯ b n n ∣ D_{1}=det(a_{ij})=\begin{vmatrix} a_{11}& \cdots&a_{1k}\\ \vdots& &\vdots \\ a_{k1}& \cdots&a_{kk} \end{vmatrix} \qquad D_{2}=\begin{vmatrix} b_{11}& \cdots&b_{1k}\\ \vdots& &\vdots \\ b_{n1}& \cdots&b_{nn} \end{vmatrix} D1=det(aij)=a11ak1a1kakkD2=b11bn1b1kbnn
\qquad 那么 D = D 1 D 2 D=D_{1}D_{2} D=D1D2

(7) ∣ A B ∣ = ∣ A ∣ ∣ B ∣ \begin{vmatrix} AB \end{vmatrix}=\begin{vmatrix} A \end{vmatrix}\begin{vmatrix} B \end{vmatrix} AB=AB

3.行列式按行(列)展开,代数余子式

降阶处理,用低阶的行列式来算高阶的行列式

n n n阶行列式,把 ( i , j ) (i,j) (i,j) a i j a_{ij} aij的第 i i i行和第 j j j列划去以后,留下来的 n − 1 n-1 n1阶行列式叫做 ( i , j ) (i,j) (i,j) a i j a_{ij} aij余子式,记作 M i j M_{ij} Mij,记
A i j = ( − 1 ) i + j M i j A_{ij}=(-1)^{i+j}M_{ij} Aij=(1)i+jMij

A i j A_{ij} Aij叫做 a i j a_{ij} aij的代数余子式

引理: 一个 n n n阶行列式,如果其中第 i i i行所有元素除 a i j a_{ij} aij外都等于0,那么行列式等于 a i j a_{ij} aij与它的代数余子式的乘积,即 D = a i j A i j D=a_{ij}A_{ij} D=aijAij

定理: 行列式等于它的任一行(列)的各元素与其对应的代数余子式乘积之和。

推论: 行列式某一行(列)的元素与另一行(列)对应元素得代数余子式乘积之和等于0。

4.行列式的应用:克莱姆法则( C r a m e r ′ s r u l e Cramer's\quad rule Cramersrule)

{ a 11 x 1 + a 12 x 2 + ⋯ + a 1 n x n = b 1 a 21 x 1 + a 22 x 2 + ⋯ + a 2 n x n = b 2 ⋯ ⋯ ⋯ a n 1 x 1 + a n 2 x 2 + ⋯ + a n n x n = b n \left\{\begin{matrix} a_{11}x_{1}+a_{12}x_{2}+\cdots+a_{1n}x_{n}=b_{1}\\ a_{21}x_{1}+a_{22}x_{2}+\cdots+a_{2n}x_{n}=b_{2}\\ \cdots \cdots \cdots\\ a_{n1}x_{1}+a_{n2}x_{2}+\cdots+a_{nn}x_{n}=b_{n} \end{matrix}\right. a11x1+a12x2++a1nxn=b1a21x1+a22x2++a2nxn=b2an1x1+an2x2++annxn=bn
如果方程的系数行列式不等于0,即$\$
D = ∣ a 11 ⋯ a 1 n ⋮ ⋮ a n 1 ⋯ a n n ∣ ≠ 0 D=\begin{vmatrix} a_{11}&\cdots&a_{1n} \\ \vdots& &\vdots\\ a_{n1}& \cdots&a_{nn} \end{vmatrix}\neq 0 D=a11an1a1nann=0

那么方程有唯一解
x 1 = D 1 D x 2 = D 2 D , ⋯ x n = D n D x_{1}=\frac{D_{1}}{D}\quad x_{2}=\frac{D_{2}}{D},\cdots x_{n}=\frac{D_{n}}{D} x1=DD1x2=DD2,xn=DDn

其中 D j ( j = 1 , 2 , ⋯ n ) D_{j}(j=1,2,\cdots n) Dj(j=1,2,n) 是把系数行列式中 D D D中第 j j j列的元素用方程组右端的常数项代替后得到的 n n n阶行列式,即

D j = ∣ a 11 ⋯ a i , j − 1 b 1 a i , j + 1 ⋯ a 1 n ⋮ ⋮ ⋮ ⋮ ⋮ a n 1 ⋯ a n , j − 1 b n a n , j + 1 ⋯ a n n ∣ \\ D_{j}=\begin{vmatrix} a_{11}&\cdots&a_{i,j-1}&b_{1}&a_{i,j+1}&\cdots&a_{1n} \\ \vdots& & \vdots& \vdots& \vdots& &\vdots \\ a_{n1}& \cdots& a_{n,j-1}&b_{n}& a_{n,j+1}&\cdots &a_{nn} \end{vmatrix} Dj=a11an1ai,j1an,j1b1bnai,j+1an,j+1a1nann

如果上式方程无解或者有两个不同的解,那 D D D一定为0.
若上式方程的 b j b_{j} bj都为零,那么就由非齐次方程组转化为齐次方程组,即
{ a 11 x 1 + a 12 x 2 + ⋯ + a 1 n x n = 0 a 21 x 1 + a 22 x 2 + ⋯ + a 2 n x n = 0 ⋯ ⋯ ⋯ a n 1 x 1 + a n 2 x 2 + ⋯ + a n n x n = 0 \left\{\begin{matrix} a_{11}x_{1}+a_{12}x_{2}+\cdots+a_{1n}x_{n}=0\\ a_{21}x_{1}+a_{22}x_{2}+\cdots+a_{2n}x_{n}=0\\ \cdots \cdots \cdots\\ a_{n1}x_{1}+a_{n2}x_{2}+\cdots+a_{nn}x_{n}=0 \end{matrix}\right. a11x1+a12x2++a1nxn=0a21x1+a22x2++a2nxn=0an1x1+an2x2++annxn=0

如果该方程的系数行列式 D D D不为0,则方程只有0解,无非零解。如果该方程有非零解,则 D D D一定为0.

4.矩阵逆的引入

定义: 对于 n n n阶矩阵 A A A,如果有一个 n n n阶矩阵 B B B,使得 A B = B A = E AB=BA=E AB=BA=E,则说明矩阵 A A A是可逆的,并把矩阵 B B B称为矩阵 A A A的逆矩阵, A A A的逆矩阵记作 A − 1 A^{-1} A1 B = A − 1 B=A^{-1} B=A1

定理1 A ≠ 0 A \neq 0 A=0矩阵 A A A可逆,则 ∣ A ∣ ≠ 0 \begin{vmatrix} A \end{vmatrix}\neq 0 A=0

证明: ∣ A − 1 ∣ A 可 逆 , 则 有 A − 1 , 使 得 A A − 1 = E \begin{vmatrix} A^{-1} \end{vmatrix}A可逆,则有A^{-1},使得AA^{-1}=E A1AA1,使AA1=E,所以有 ∣ A ∣ ∣ A − 1 ∣ = 1 \begin{vmatrix} A \end{vmatrix}\begin{vmatrix} A^{-1} \end{vmatrix}=1 AA1=1A
那么, ∣ A ∣ ≠ 0 \begin{vmatrix} A \end{vmatrix}\neq 0 A=0

定理2 ∣ A ∣ ≠ 0 \begin{vmatrix} A \end{vmatrix}\neq 0 A=0,则矩阵 A A A可逆,且 A − 1 = 1 ∣ A ∣ A ∗ A^{-1}=\frac{1}{\begin{vmatrix} A \end{vmatrix}}A^{*} A1=A1A,其中 A ∗ A^{*} A为矩阵 A A A的伴随矩阵.

A ∗ = ( A 11 A 21 ⋯ A n 1 A 12 A 22 ⋯ A n 2 ⋮ ⋮ ⋮ A 1 n A 2 n ⋯ A n n ) A^{*}=\begin{pmatrix} A_{11}& A_{21} &\cdots &A_{n1} \\ A_{12}& A_{22} &\cdots &A_{n2} \\ \vdots& \vdots & &\vdots \\ A_{1n}&A_{2n} &\cdots &A_{nn} \end{pmatrix} A=A11A12A1nA21A22A2nAn1An2Ann

4.1 矩阵的逆的常用性质以及特殊矩阵的逆

性质

(i) 若 A A A可逆,则 A − 1 A^{-1} A1也可逆,且 ( A − 1 ) − 1 = A (A^{-1})^{-1}=A (A1)1=A

(ii)若 A A A可逆,数 λ ≠ 0 \lambda \neq 0 λ=0,则 λ A \lambda A λA可逆, ( λ A ) − 1 = 1 λ A − 1 (\lambda A)^{-1}=\frac{1}{\lambda}A^{-1} (λA)1=λ1A1

(iii) 若 A , B A,B A,B为同阶方阵且均可逆,则 ∣ A B ∣ = ∣ A ∣ ∣ B ∣ ≠ 0 \begin{vmatrix} AB \end{vmatrix}=\begin{vmatrix} A \end{vmatrix}\begin{vmatrix} B \end{vmatrix}\neq 0 AB=AB=0,则 A B AB AB可逆;且 ( A B ) − 1 = B − 1 A − 1 (AB)^{-1}=B^{-1}A^{-1} (AB)1=B1A1

(iiii) 若 A A A是可逆的,则 A T A^{T} AT也可逆,且 ( A T ) − 1 = ( A − 1 ) − T (A^{T})^{-1}=(A^{-1})^{-T} (AT)1=(A1)T

说明: ∣ A T ∣ = ∣ A ∣ ≠ 0 \begin{vmatrix} A^{T} \end{vmatrix}=\begin{vmatrix} A \end{vmatrix}\neq 0 AT=A=0,则 A T A^{T} AT可逆,因为 A T ( A − 1 ) T = ( A − 1 A ) T = E A^{T}(A^{-1})^{T}=(A^{-1}A)^{T}=E AT(A1)T=(A1A)T=E

4.2 特殊矩阵的逆

求二阶矩阵 A = ( a b c d ) A=\begin{pmatrix} a&b&\\ c&d& \end{pmatrix} A=(acbd)的逆矩阵。

解: ∣ A ∣ = a d − b c , A ∗ = ( d − b − c a ) \begin{vmatrix} A \end{vmatrix}=ad-bc,\qquad A^{*}= \begin{pmatrix} d&-b&\\ -c&a& \end{pmatrix} A=adbc,A=(dcba)
A
利用逆矩阵公式 A − 1 = 1 ∣ A ∣ A ∗ A^{-1}=\frac{1}{\begin{vmatrix} A \end{vmatrix}}A^{*} A1=A1A,当 d e t ( A ) ≠ 0 det(A)\neq0 det(A)=0时,有
A
A − 1 = 1 ∣ A ∣ A ∗ = 1 a d − b c ( d − b − c a ) A^{-1}=\frac{1}{\begin{vmatrix} A \end{vmatrix}}A^{*}=\frac{1}{ad-bc}\begin{pmatrix} d&-b&\\ -c&a& \end{pmatrix} A1=A1A=adbc1(dcba)

单位矩阵的逆矩阵为单位矩阵
对角矩阵的逆矩阵

A = ( λ 1 ⋱ λ n ) , ∴ A − 1 = ( λ 1 − 1 ⋱ λ n − 1 ) A=\begin{pmatrix} \lambda_{1} & &\\ &\ddots&\\ & &\lambda_{n} \end{pmatrix},\qquad \therefore A^{-1}=\begin{pmatrix} \lambda_{1}^{-1} & &\\ &\ddots&\\ & &\lambda_{n}^{-1} \end{pmatrix} A=λ1λn,A1=λ11λn1

4.3 矩阵逆在机器学习线性回归算法中的运用(初级)

4.3.1 多元线性回归问题

x 1 , x 2 , ⋯   , x N , x i ∈ R n y 1 , x 2 , ⋯   , y N , y i ∈ R 1 x_{1},x_{2},\cdots,x_{N},x_{i}\in \mathbb{R}^{n} \\ y_{1},x_{2},\cdots,y_{N},y_{i}\in \mathbb{R}^{1} x1,x2,,xN,xiRny1,x2,,yN,yiR1
其中 x i x_{i} xi表示一个样本,其是一个 n n n维向量, y i y_{i} yi是一个输出标量

在回归问题中,我们有

y 1 = x 11 a 1 + x 12 a 2 + ⋯ + x 1 n a n y 1 = x 21 a 1 + x 22 a 2 + ⋯ + x 2 n a n ⋮ y N = x N 1 a 1 + x N 2 a 2 + ⋯ + x N n a n y_{1}=x_{11}a_{1}+x_{12}a_{2}+\cdots+x_{1n}a_{n} \\ y_{1}=x_{21}a_{1}+x_{22}a_{2}+\cdots+x_{2n}a_{n} \\ \vdots\\ y_{N}=x_{N1}a_{1}+x_{N2}a_{2}+\cdots+x_{Nn}a_{n} y1=x11a1+x12a2++x1nany1=x21a1+x22a2++x2nanyN=xN1a1+xN2a2++xNnan

写成矩阵的形式

( x 11 x 12 ⋯ x 1 n x 21 x 22 ⋯ x 2 n ⋮ ⋮ ⋱ ⋮ x N 1 x N 2 ⋯ x N n ) ( a 1 a 2 ⋮ a n ) = ( y 1 y 1 ⋮ y N ) \begin{pmatrix} x_{11}&x_{12} &\cdots &x_{1n}\\ x_{21}& x_{22}&\cdots &x_{2n}\\ \vdots& \vdots& \ddots&\vdots\\ x_{N1}&x_{N2} &\cdots &x_{Nn} \end{pmatrix}\begin{pmatrix} a_{1}\\a_{2}\\\vdots\\a_{n} \end{pmatrix}=\begin{pmatrix} y_{1}\\ y_{1}\\\vdots \\y_{N} \end{pmatrix} x11x21xN1x12x22xN2x1nx2nxNna1a2an=y1y1yN

X N × n a n × 1 = Y N × 1 X_{N\times n}a_{n\times1}=Y_{N\times1} XN×nan×1=YN×1
N = n N=n N=n X N × n X_{N\times n} XN×n可逆时, a = X − 1 Y a=X^{-1}Y a=X1Y
一般情况, N ≠ n N\neq n N=n.

5. 分块矩阵

分块矩阵的运算规则与普通矩阵的运算规则相似,分别说明如下:

(i) 设矩阵 A A A B B B的行数、列数相同,采用相同的分块法,有

A = ( A 11 ⋯ A i r ⋮ ⋮ A n 1 ⋯ A n r ) , B = ( B 11 ⋯ B i r ⋮ ⋮ B n 1 ⋯ B n r ) A=\begin{pmatrix} A_{11} &\cdots&A_{ir}\\ \vdots& &\vdots\\ A_{n1}& \cdots&A_{nr}\\ \end{pmatrix},\qquad B=\begin{pmatrix} B_{11} &\cdots&B_{ir}\\ \vdots& &\vdots\\ B_{n1}& \cdots&B_{nr}\\ \end{pmatrix} A=A11An1AirAnr,B=B11Bn1BirBnr

其中 A i j A_{ij} Aij B i j B_{ij} Bij行数,列数相同,那么

A + B = ( A 11 + B 11 ⋯ A i r + B i r ⋮ ⋮ A n 1 + B n 1 ⋯ A n r + B n r ) A+B=\begin{pmatrix} A_{11}+B_{11} &\cdots&A_{ir}+B_{ir}\\ \vdots& &\vdots\\ A_{n1}+B_{n1}& \cdots&A_{nr}+B_{nr}\\ \end{pmatrix} A+B=A11+B11An1+Bn1Air+BirAnr+Bnr

(ii) 设 A = ( A 11 ⋯ A 1 r ⋮ ⋮ A s 1 ⋯ A s r ) A=\begin{pmatrix} A_{11}&\cdots &A_{1r}\\ \vdots& &\vdots \\ A_{s1}&\cdots &A_{sr} \end{pmatrix} A=A11As1A1rAsr, λ \qquad \lambda λ为一个实数,那么 λ A = ( λ A 11 ⋯ λ A 1 r ⋮ ⋮ λ A s 1 ⋯ λ A s r ) \lambda A=\begin{pmatrix} \lambda A_{11}&\cdots &\lambda A_{1r}\\ \vdots& &\vdots \\ \lambda A_{s1}&\cdots &\lambda A_{sr} \end{pmatrix} λA=λA11λAs1λA1rλAsr

(iii) 设 A A A m × l m\times l m×l, B B B l × n l\times n l×n,分块成
A = ( A 11 ⋯ A 1 t ⋮ ⋮ A s 1 ⋯ A s t ) , B = ( B 11 ⋯ B 1 r ⋮ ⋮ B t 1 ⋯ B t r ) A=\begin{pmatrix} A_{11}&\cdots &A_{1t}\\ \vdots& & \vdots\\ A_{s1}&\cdots &A_{st}\\ \end{pmatrix},\qquad B=\begin{pmatrix} B_{11}& \cdots&B_{1r}\\ \vdots& &\vdots\\ B_{t1}&\cdots &B_{tr} \end{pmatrix} A=A11As1A1tAst,B=B11Bt1B1rBtr

其中 A i 1 , A i 2 , ⋯   , A i t A_{i1},A_{i2},\cdots,A_{it} Ai1,Ai2,,Ait的列数分别等于 B 1 j , B 2 j , ⋯   , B t j B_{1j},B_{2j},\cdots,B_{tj} B1j,B2j,,Btj的行数,那么有

A B ( C 11 ⋯ C 1 r ⋮ ⋮ C s 1 ⋯ C s r ) AB\begin{pmatrix} C_{11}&\cdots &C_{1r}\\ \vdots& &\vdots\\ C_{s1}&\cdots &C_{sr} \end{pmatrix} ABC11Cs1C1rCsr

其中, C i j = ∑ k = 1 t A i k B k j , ( i = 1 , ⋯   , s ; j = 1 , ⋯   , r ) C_{ij}=\sum_{k=1}^{t}A_{ik}B_{kj},\qquad (i=1,\cdots,s;j=1,\cdots,r) Cij=k=1tAikBkj,(i=1,,s;j=1,,r)

(iv) 设 A = ( A 11 ⋯ A 1 r ⋮ ⋮ A s 1 ⋯ A s r ) A=\begin{pmatrix} A_{11}&\cdots &A_{1r}\\ \vdots& &\vdots\\ A_{s1}&\cdots &A_{sr} \end{pmatrix} A=A11As1A1rAsr,则 A T = ( A 11 T ⋯ A s 1 T ⋮ ⋮ A 1 r T ⋯ A s r T ) A^{T}=\begin{pmatrix} A_{11}^{T}&\cdots &A_{s1}^{T}\\ \vdots& &\vdots\\ A_{1r}^{T}&\cdots &A_{sr}^{T} \end{pmatrix} AT=A11TA1rTAs1TAsrT

(v) 设 A A A n n n阶矩阵,若 A A A的分块矩阵只有对角线上有非零块,其余子块都为零矩阵,且对角线上的子块都是方阵,即

A = ( A 1 O A 2 ⋱ A s ) A=\begin{pmatrix} A_{1}& & &O\\ & A_{2}& &\\ & & \ddots&\\ & & &A_{s} \end{pmatrix} A=A1A2OAs

其中 A i ( i = 1 , 2 ⋯ s ) A_{i}(i=1,2\cdots s) Ai(i=1,2s)都是方阵,那么称 A A A为分块对角阵,
分块对角阵的行列式具有下述性质
∣ A ∣ = ∣ A 1 ∣ ∣ A 2 ∣ ⋯ ∣ A s ∣ \begin{vmatrix} A \end{vmatrix}=\begin{vmatrix} A_{1} \end{vmatrix}\begin{vmatrix} A_{2} \end{vmatrix}\cdots\begin{vmatrix} A_{s} \end{vmatrix} A=A1A2As

由此性质可知,若 ∣ A i ∣ ≠ 0 ( i = 1 , 2 , ⋯ s ) \begin{vmatrix} A_{i} \end{vmatrix}\neq0(i=1,2,\cdots s) Ai=0(i=1,2,s),则 ∣ A ∣ ≠ 0 \begin{vmatrix} A \end{vmatrix}\neq0 A=0,并有

A − 1 = ( A 1 − 1 O A 2 − 1 ⋱ A s − 1 ) A^{-1}=\begin{pmatrix} A_{1}^{-1}& & &O\\ & A_{2}^{-1}& &\\ & & \ddots&\\ & & &A_{s}^{-1} \end{pmatrix} A1=A11A21OAs1

5.1 协方差矩阵的计算

x 1 , x 2 , ⋯ x N ∈ R n x_{1},x_{2},\cdots x_{N} \in \mathbb{R}^{n} x1,x2,xNRn

X = ( x 1 T ⋮ x N T ) N × n , X T = ( x 1 , x 2 , ⋯   , x N ) n × N , X T X n × n X=\begin{pmatrix} x_{1}^{T}\\ \vdots\\ x_{N}^{T} \end{pmatrix}_{N \times n},\qquad X^{T}=\begin{pmatrix} x_{1},x_{2},\cdots,x_{N} \end{pmatrix}_{n\times N},\qquad X^{T}X_{n\times n} X=x1TxNTN×nXT=(x1x2,,xN)n×N,XTXn×n,为样本的协方差矩阵

X T X = ∑ i = 1 N x i x i T X^{T}X=\sum_{i=1}^{N}x_{i}x_{i}^{T} XTX=i=1NxixiT

三、矩阵初等变换的引入

1 三种矩阵的初等变化

定义: 下面的三种变换称为矩阵的初等行变换:

(i) 对调两行(对调 i , j i,j i,j两行,记作 r i ↔ r j ) r_{i}\leftrightarrow r_{j}) rirj)

(ii)以数 k ≠ 0 k\neq0 k=0乘某一行的所有元素(第 i i i行乘以 k k k,记作 r i × k r_{i}\times k ri×k);

(iii)把某一行所有元素的 k k k倍加到另外一行对应的元素上去(第 j j j行的 k k k倍加到第 i i i行上,记作 r i + k × r j r_{i}+k\times r_{j} ri+k×rj)

把定义中的”行“换成”列”,即得矩阵得初等列变换得定义(记号“ r r r”换成“ c c c”)

矩阵得初等行变换与初等列变换,统称初等变换

如果矩阵 A A A经有限次初等行(列)变换变成矩阵 B B B,就称矩阵 A A A B B B行(列)等价,记作 A ∼ B A\sim B AB;

如果矩阵 A A A经有限次初等变换变成矩阵 B B B,就称矩阵 A A A B B B等价,记作 A ∼ B A\sim B AB;

矩阵之间的等价关系具有以下性质:

(i)反身性 A ∼ A A\sim A AA

(ii)对称性 若 A ∼ B A\sim B AB,则 B ∼ A B\sim A BA

(iii)传递性 若 A ∼ B A\sim B AB, B ∼ C B\sim C BC,则 A ∼ C A\sim C AC

2.矩阵的标准型

例如
B = [ 2 − 1 − 1 1 2 1 1 − 2 1 4 4 − 6 2 − 2 4 3 6 − 9 7 9 ] B=\begin{bmatrix} 2& -1&-1 &1 &2\\ 1& 1& -2&1 &4\\ 4& -6&2 &-2 &4\\ 3& 6& -9&7 &9 \end{bmatrix} B=21431166122911272449

第一步,进行初等行变换,可得 阶 梯 型 矩 阵 {\color{red}阶梯型矩阵} , B p = [ 1 0 − 1 0 4 0 1 − 1 0 3 0 0 0 1 − 3 0 0 0 0 0 ] B_{p}=\begin{bmatrix} 1& 0& -1&0 &4\\ 0& 1& -1&0 &3\\ 0&0 &0 &1 &-3\\ 0&0 &0 &0 &0 \end{bmatrix} Bp=10000100110000104330

第二步,进行初等列变换,可得 矩 阵 B 的 标 准 型 F {\color{red}矩阵B的标准型F} BF

F = [ 1 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 ] F=\begin{bmatrix} 1& 0& 0& 0&0\\ 0&1 &0 &0 &0\\ 0&0 &1 &0 &0\\ 0&0 &0 &0 &0 \end{bmatrix} F=10000100001000000000

其特点: F F F的左上角是一个单位矩阵。其余元素全为0.

对 于 m × n 矩 阵 A , 总 可 以 经 过 初 等 变 换 ( 行 变 换 和 列 变 换 ) , 把 它 化 为 标 准 型 {\color{red}对于m\times n矩阵A,总可以经过初等变换(行变换和列变换),把它化为标准型} m×nA()

F = [ E r O O O ] m × n F=\begin{bmatrix} E_{r}&O &\\ O&O & \end{bmatrix}_{m\times n} F=[ErOOO]m×n

3.三种初等矩阵

E ( i , j ) = [ 1 ⋱ 1 0 ⋯ 1 1 ⋮ ⋱ ⋮ 1 1 ⋯ 0 1 ⋱ 1 ] E(i,j)=\begin{bmatrix} 1& & & & & & & & & &\\ &\ddots& & & & & & & & &\\ &&1&&&&&&&&\\ &&&0&&\cdots&&1&&&\\ &&&&1&&&&&&\\ &&&\vdots&&\ddots&&\vdots&&&\\ &&&&&&1&&&&\\ &&&1&&\cdots&&0&&&\\ &&&&&&&&1&&\\ &&&&&&&&&\ddots&\\ &&&&&&&&&&1\\ \end{bmatrix} E(i,j)=1101111011

矩阵 E ( i , j ) E(i,j) E(i,j)由单位矩阵互换 i , j i,j i,j行得到的。

将该矩阵作用在另外一个矩阵 A A A上(即左乘以矩阵 A A A),得到的结果相当于把 A A A矩阵的 i , j i,j i,j行交换位置

E ( i ( k ) ) = [ 1 ⋱ 1 k 1 ⋱ 1 ] E(i(k))=\begin{bmatrix} 1&&&&&&\\ &\ddots&&&&&\\ &&1&&&&\\ &&&k&&&\\ &&&&1&&\\ &&&&&\ddots&\\ &&&&&&1 \end{bmatrix} E(i(k))=11k11

矩阵 E ( i ( k ) ) E(i(k)) E(i(k))由单位矩阵的第 i i i行乘以 k k k得到。

将该矩阵作用在另外一个矩阵 A A A上(即左乘以矩阵 A A A),得到的结果相当于把 A A A矩阵的 i i i行乘以 k k k

E ( i j ( k ) ) = [ 1 ⋱ 1 ⋱ 1 ⋱ 1 ] E(ij(k))=\begin{bmatrix} 1&&&&&&\\ &\ddots&&&&&\\ &&1&&&&\\ &&&\ddots&&&\\ &&&&1&&\\ &&&&&\ddots&\\ &&&&&&1 \end{bmatrix} E(ij(k))=1111

矩阵 E ( i j ( k ) ) E(ij(k)) E(ij(k))由单位矩阵的第 i i i行加上第 j j j行与 k k k的乘积。

将该矩阵作用在另外一个矩阵 A A A上(即左乘以矩阵 A A A),得到的结果相当于把 A A A矩阵的 i i i行加上第 j j j行与 k k k的乘积.

性质1 A A A是一个 m × n m\times n m×n矩阵,对 A A A实施一次初等行变换,相当于在 A A A的左边乘以相应的 m m m阶初等矩阵;对 A A A施行一次初等列变换。相当于在 A A A的右边乘以相应的 n n n阶初等矩阵

性质2 方阵 A A A可逆的充分必要条件是存在有限个初等矩阵 P 1 , P 2 , ⋯   , P i P_{1},P_{2},\cdots,P_{i} P1,P2,,Pi,使得 A = P 1 P 2 ⋯ P i A=P_{1}P_{2}\cdots P_{i} A=P1P2Pi

证明: ∵ \because 任意矩阵,都可以经过初等变换转为为标准型 F = [ E r O O O ] F=\begin{bmatrix} E_{r}&O\\ O&O \end{bmatrix} F=[ErOOO], E r E_{r} Er为单位矩阵

∴ \therefore 存在初等矩阵 Q 1 , Q 2 , ⋯   , Q j , Q j + 1 , ⋯ Q i Q_{1},Q_{2},\cdots,Q_{j},Q_{j+1},\cdots Q_{i} Q1,Q2,,Qj,Qj+1,Qi,使得 Q 1 Q 2 ⋯ Q j A Q i ⋯ Q j + 1 = F Q_{1}Q_{2}\cdots Q_{j}AQ_{i}\cdots Q_{j+1}=F Q1Q2QjAQiQj+1=F

∵ \because 初等矩阵是可逆的

∴ \therefore A = Q j − 1 Q j − 1 − 1 ⋯ Q 1 − 1 F Q j + 1 − 1 ⋯ Q i − 1 A=Q_{j}^{-1}Q_{j-1}^{-1}\cdots Q_{1}^{-1}FQ_{j+1}^{-1}\cdots Q_{i}^{-1} A=Qj1Qj11Q11FQj+11Qi1

P k = Q k − 1 , ( k = 1 , 2 , ⋯ i ) P_{k}=Q_{k}^{-1},(k=1,2,\cdots i) Pk=Qk1(k=1,2,i)

∵ \because , A = P j P j − 1 ⋯ P j F P j + 1 P j + 2 ⋯ P i A=P_{j}P_{j-1}\cdots P_{j}FP_{j+1}P_{j+2}\cdots P_{i} A=PjPj1PjFPj+1Pj+2Pi

∵ \because ∣ A ∣ = ∣ P 1 ∣ ∣ P 2 ∣ ⋯ ∣ F ∣ ∣ P j + 1 ∣ ⋯ ∣ P i ∣ \begin{vmatrix} A \end{vmatrix}=\left | P_{1} \right |\left | P_{2} \right |\cdots \left | F \right |\left | P_{j+1} \right |\cdots \left | P_{i} \right | A=P1P2FPj+1Pi

∵ \because A A A可逆

∴ \therefore ∣ F ∣ ≠ 0 \left | F \right |\neq0 F=0,

∵ \because 矩阵 F F F是标准型矩阵, ∴ \therefore 矩阵 F F F为单位矩阵

∴ \therefore A = P 1 P 2 ⋯ P i A=P_{1}P_{2}\cdots P_{i} A=P1P2Pi

推论:方阵 A A A可逆的充分必要条件是可通过初等** 行 {\color{red}{行}} **变换变成单位矩阵

证明: ∵ \because A = P 1 P 2 ⋯ P i A=P_{1}P_{2}\cdots P_{i} A=P1P2Pi

∴ P 1 − 1 P 2 − 1 ⋯ P i − 1 A = E \therefore\qquad P_{1}^{-1}P_{2}^{-1}\cdots P_{i}^{-1}A=E P11P21Pi1A=E

∴ Q 1 Q 2 ⋯ Q i A = E \therefore\qquad Q_{1}Q_{2}\cdots Q_{i}A =E Q1Q2QiA=E

所以,推论成立。

定理: A A A B B B m × n m\times n m×n矩阵,那么:

(i) A ∼ ( r ) B A\sim (r) B A(r)B的充分必要条件是存在 m m m阶可逆矩阵 P P P;使得 P A = B PA=B PA=B

(ii) A ∼ ( c ) B A\sim (c) B A(c)B的充分必要条件是存在 n n n阶可逆矩阵 Q Q Q;使得 A Q = B AQ=B AQ=B

(iii) A ∼ B A\sim B AB的充分必要条件使存在 m m m阶可逆矩阵 P P P以及 n n n阶可逆矩阵 Q Q Q,,使得 P A Q = B PAQ=B PAQ=B

4. 矩阵秩的定义以及性质

定义 m × n m\times n m×n矩阵 A A A中,任取 k k k行与 k k k ( k ≤ m , k ≤ n ) (k\leq m,k\leq n) (km,kn),位于这些行列交叉处的 k 2 k^{2} k2个元素,不改变它们在 A A A中所处的位置次序而得的 k k k阶行列式,称为矩阵 A A A k k k阶子式。

m × n 矩 阵 A 的 k 阶 子 式 共 有 C m k ⋅ C n k 个 m\times n矩阵A的k阶子式共有C_{m}^{k}\cdot C_{n}^{k}个 m×nAkCmkCnk

定义: 设在矩阵 A A A中有一个不等于0的 r r r阶子式子 D D D,且所有 r + 1 r+1 r+1阶子式(如果存在的话)全等于0,那么 D D D称为矩阵 A A A的最高阶非零子式,数 r r r称为矩阵 A A A的秩,记作 R ( A ) R(A) R(A),并规定零矩阵的秩等于0.

显然,若 A A A m × n m\times n m×n矩阵,则 0 ≤ R ( A ) ≤ m i n { m , n } 0\leq R(A)\leq min\left \{ m,n \right \} 0R(A)min{m,n}.由于行列式与其转置行列式相等,因此 A T A^{T} AT的子式与 A A A的子式对应相等,从而 R ( A T ) = R ( A ) R(A^{T})=R(A) R(AT)=R(A)。对于 n n n阶矩阵 A A A,由于 A A A n n n阶子式只有一个 ∣ A ∣ \left | A \right | A,故当 ∣ A ∣ ≠ 0 \left | A \right |\neq 0 A=0 R ( A ) = n R(A)=n R(A)=n,当 ∣ A ∣ = 0 \left | A \right |=0 A=0 R ( A ) < n R(A)<n R(A)<n.可见可逆矩阵的秩等于矩阵的阶数,不可逆矩阵的秩小于矩阵的阶数,因此, 可 逆 矩 阵 又 称 满 秩 矩 阵 , 不 可 逆 矩 阵 ( 奇 异 矩 阵 ) 又 称 为 降 秩 矩 阵 {\color{red}{可逆矩阵又称满秩矩阵,不可逆矩阵(奇异矩阵)又称为降秩矩阵}} ()

注: 对于一般矩阵,当行数与列数较高时,按照定义求秩很麻烦,然而对于行阶梯形矩阵,它的秩就等于非零行的行数,一看便知无须计算,因此自然想到用初等变换把矩阵化为行阶梯型矩阵,但是两个等价矩阵的秩是否相等呢?

定理: A ∼ B A\sim B AB,则 R ( A ) = R ( B ) ∗ ∗ 推 论 : ∗ ∗ 若 存 在 R(A)=R(B) **推论:** 若存在 R(A)=R(B)P,Q 可 逆 矩 阵 使 得 可逆矩阵使得 使PAQ=B$,则 R ( A ) = R ( B ) R(A)=R(B) R(A)=R(B)

常用的矩阵秩的性质:(矩阵 A , B A,B A,B的行数相同)

(i) m a x { R ( A ) , R ( B ) } ≤ R ( A , B ) ≤ R ( A ) + R ( B ) max \left \{ R(A),R(B) \right \}\leq R(A,B)\leq R(A)+R(B) max{R(A)R(B)}R(A,B)R(A)+R(B)

证明: 因为 A A A的列向量可由 ( A , B ) (A,B) (A,B)列向量线性表示,所以 R ( A ) ≤ R ( A , B ) R(A)\leq R(A,B) R(A)R(A,B),同理, R ( B ) ≤ R ( A , B ) R(B)\leq R(A,B) R(B)R(A,B),所以 m a x { R ( A ) , R ( B ) } ≤ R ( A , B ) max \left \{ R(A),R(B) \right \}\leq R(A,B) max{R(A)R(B)}R(A,B)

a 1 , a 2 , ⋯   , a r 1 a_{1},a_{2},\cdots,a_{r_{1}} a1,a2,,ar1 A A A的列向量组的极大无关组, b 1 , b 2 , ⋯   , b r 2 b_{1},b_{2},\cdots,b_{r_{2}} b1,b2,,br2 B B B的列向量组的极大无关组,则 ( A , B ) (A,B) (A,B)的列向量组可由 a 1 , a 2 , ⋯   , a r 1 , b 1 , b 2 , b r 2 a_{1},a_{2},\cdots,a_{r_{1}},b_{1},b_{2},b_{r_{2}} a1,a2,,ar1,b1,b2,br2线性表示,所以 R ( A , B ) = R ( a 1 , a 2 , ⋯   , a r 1 , b 1 , b 2 , b r 2 ) ≤ R ( A ) + R ( B ) R(A,B)=R(a_{1},a_{2},\cdots,a_{r_{1}},b_{1},b_{2},b_{r_{2}})\leq R(A)+R(B) R(A,B)=R(a1,a2,,ar1,b1,b2,br2)R(A)+R(B),所以,结论成立.

(ii) R ( A + B ) ≤ R ( A ) + R ( B ) R(A+B)\leq R(A)+R(B) R(A+B)R(A)+R(B)

证明: a 1 , a 2 , ⋯   , a r 1 a_{1},a_{2},\cdots,a_{r_{1}} a1,a2,,ar1 A A A的列向量组的极大无关组, b 1 , b 2 , ⋯   , b r 2 b_{1},b_{2},\cdots,b_{r_{2}} b1,b2,,br2 B B B的列向量组的极大无关组,那么 ( A + B ) (A+B) (A+B)的中的每个列向量都可以用向量组 a 1 , a 2 , ⋯   , a r 1 , b 1 , b 2 , b r 2 a_{1},a_{2},\cdots,a_{r_{1}},b_{1},b_{2},b_{r_{2}} a1,a2,,ar1,b1,b2,br2线性表示,所以 R ( A + B ) ≤ R ( A ) + R ( B ) R(A+B)\leq R(A)+R(B) R(A+B)R(A)+R(B)

(iii) R ( A B ) ≤ m i n { R ( A ) , R ( B ) } R(AB)\leq min\left \{R(A),R(B) \right \} R(AB)min{R(A),R(B)}

证明:因为矩阵
A B = ( α 1 α 2 ⋯ α m ) ( b 11 ⋯ b 1 s ⋮ ⋮ b m 1 ⋯ b m s ) AB=\begin{pmatrix} \alpha_{1}& \alpha_{2}& \cdots&\alpha_{m} \end{pmatrix}\begin{pmatrix} b_{11}&\cdots &b_{1s}\\ \vdots& & \vdots\\ b_{m1}& \cdots& b_{ms}&\\ \end{pmatrix} AB=(α1α2αm)b11bm1b1sbms

所以可知 A B AB AB的列向量组可由 A A A的列向量组表示,则 R ( A B ) ≤ R ( A ) R(AB)\leq R(A) R(AB)R(A)

同理,有
A B = ( a 11 ⋯ a 1 m ⋮ ⋮ a n 1 ⋯ a n m ) ( β 1 ⋮ β m ) AB= \begin{pmatrix} a_{11}&\cdots &a_{1m}\\ \vdots& &\vdots\\ a_{n1}&\cdots&a_{nm}\\ \end{pmatrix} \begin{pmatrix} \beta_{1}\\\vdots\\\beta_{m}\\ \end{pmatrix} AB=a11an1a1manmβ1βm

所以可知 A B AB AB的行向量组可由 B B B的行向量组表示,则 R ( A B ) ≤ R ( B ) R(AB)\leq R(B) R(AB)R(B)

所以, R ( A B ) ≤ m i n { R ( A ) , R ( B ) } R(AB)\leq min\left \{R(A),R(B) \right \} R(AB)min{R(A),R(B)}

(iv) 若 A m × n B n × i = O A_{m\times n}B_{n\times i}=O Am×nBn×i=O,则 R ( A ) + R ( B ) ≤ n R(A)+R(B)\leq n R(A)+R(B)n

因为 A B = 0 AB=0 AB0
所以 B B B的列向量都是 A X = 0 AX=0 AX=0的解.
所以 B B B的列向量组可以由 A X = 0 AX=0 AX=0的基础解系线性表示
所以 r ( B ) < = n − r ( A ) r(B) <= n-r(A) r(B)<=nr(A)
所以 r ( A ) + r ( B ) < = n . r(A)+r(B) <= n. r(A)+r(B)<=n.

5.线性方程组解的个数

设有 n n n个未知数 m m m个方程的线性方程组

{ a 11 x 1 + a 12 x 2 + ⋯ + a 1 n x n = b 1 a 21 x 1 + a 22 x 2 + ⋯ + a 2 n x n = b 2 ⋯ ⋯ ⋯ a m 1 x 1 + a m 2 x 2 + ⋯ + a m n x n = b m (1) \left\{\begin{matrix} a_{11}x_{1}+a_{12}x_{2}+\cdots+a_{1n}x_{n}=b_{1}\\ a_{21}x_{1}+a_{22}x_{2}+\cdots+a_{2n}x_{n}=b_{2}\\ \cdots \cdots \cdots \tag{1} \\ a_{m1}x_{1}+a_{m2}x_{2}+\cdots+a_{mn}x_{n}=b_{m} \end{matrix}\right. a11x1+a12x2++a1nxn=b1a21x1+a22x2++a2nxn=b2am1x1+am2x2++amnxn=bm(1)

(1)式可以写成以向量 x x x为未知元的向量方程
A x = b (2) Ax=b \tag{2} Ax=b(2)

定理: n n n元线性方程组 A X = b AX=b AX=b

(i) 无解的充分必要条件是 R ( A ) < R ( A , b ) R(A)<R(A,b) R(A)<R(A,b)

(ii) 有唯一解的充分必要条件是 R ( A ) = R ( A , b ) = n R(A)=R(A,b)=n R(A)=R(A,b)=n

(iii) 有无限多解的充分必要条件是 R ( A ) = R ( A , b ) < n R(A)=R(A,b)<n R(A)=R(A,b)<n

定理: n n n元齐次线性方程组 A x = 0 Ax=0 Ax=0有非零解的充分必要条件是 R ( A ) < n R(A)<n R(A)<n

定理: 线性方程组 A x = b Ax=b Ax=b有解的充分必要条件是 R ( A ) = R ( A , b ) R(A)=R(A,b) R(A)=R(A,b)

四、矩阵秩在机器学习线性回归算法中的应用(中级)

x 1 , x 2 , ⋯   , x N , x i ∈ R n x_{1},x_{2},\cdots,x_{N},x_{i}\in \mathbb{R^{n}} x1,x2,,xN,xiRn表示有 N N N个样本,每个样本是 n n n维向量

y 1 , y 2 , ⋯   , y N , y i ∈ R 1 y_{1},y_{2},\cdots,y_{N},y_{i}\in \mathbb{R^{1}} y1,y2,,yN,yiR1表示每个样本的输出,每个输出都为一个标量.

y 1 = x 11 a 1 + x 12 a 2 + ⋯ + x 1 n a n y 2 = x 21 a 1 + x 22 a 2 + ⋯ + x 2 n a n ⋮ y N = x N 1 a 1 + x N 2 a 2 + ⋯ + x N n a n ( x 11 x 12 ⋯ x 1 n x 21 x 22 ⋯ x 2 n ⋮ ⋮ ⋱ ⋮ x N 1 x N 2 ⋯ x N n ) = ( y 1 y 2 ⋮ y N ) X N × n a n × 1 = Y N × 1 y_{1}=x_{11}a_{1}+x_{12}a_{2}+\cdots+x_{1n}a_{n}\\ y_{2}=x_{21}a_{1}+x_{22}a_{2}+\cdots+x_{2n}a_{n}\\ \vdots \\ y_{N}=x_{N1}a_{1}+x_{N2}a_{2}+\cdots+x_{Nn}a_{n} \begin{pmatrix} x_{11}&x_{12}&\cdots&x_{1n}\\ x_{21}& x_{22}& \cdots& x_{2n}\\ \vdots&\vdots &\ddots &\vdots\\ x_{N1}&x_{N2} &\cdots &x_{Nn} \end{pmatrix}=\begin{pmatrix} y_{1}\\y_{2}\\\vdots\\y_{N} \end{pmatrix} \\ X_{N\times n}a_{n\times 1}=Y_{N\times 1} y1=x11a1+x12a2++x1nany2=x21a1+x22a2++x2nanyN=xN1a1+xN2a2++xNnanx11x21xN1x12x22xN2x1nx2nxNn=y1y2yNXN×nan×1=YN×1

N = n N=n N=n X N × n X_{N\times n} XN×n可逆时: a = X − 1 Y a=X^{-1}Y a=X1Y

一般情况下: N ≠ n N\neq n N=n

那么 m i n ∥ X a − Y ∥ = J min\left \| Xa-Y \right \|=J minXaY=J,构造损失函数, ∂ J ∂ a = X T ( X a − Y ) = 0 , X T X a = X T Y \frac{\partial J}{\partial a}=X^{T}(Xa-Y)=0,X^{T}Xa=X^{T}Y aJ=XT(XaY)=0XTXa=XTY, X T X X^{T}X XTX是否可逆?

关 于 此 部 分 的 矩 阵 损 失 函 数 求 导 以 及 以 下 的 说 明 , 后 续 会 讲 到 {\color{red}{关于此部分的矩阵损失函数求导以及以下的说明,后续会讲到}}

1. N > n N>n N>n,如 N = 5 , n = 3 N=5,n=3 N=5,n=3, ( x T x ) 3 × 3 (x^{T}x)_{3\times 3} (xTx)3×3一般是可逆的, a = ( X T X ) − 1 X T Y a={\color{blue}{(X^{T}X)^{-1}X^{T}}}Y a=(XTX)1XTY,蓝色部分称为矩阵 X X X的伪逆矩阵

2. N < n N<n N<n,如 N = 3 , n = 5 , ( X T X ) 5 × 5 , R ( X T X ) ≤ R ( X ) ≤ 3 N=3,n=5,(X^{T}X)_{5\times 5},R(X^{T}X)\leq R(X)\leq 3 N=3n=5,(XTX)5×5,R(XTX)R(X)3,所以 X T X X^{T}X XTX不可逆。 通 过 加 入 二 范 数 正 则 化 项 , 可 解 决 不 可 逆 问 题 \color{red}{通过加入二范数正则化项,可解决不可逆问题}

补充: A A A m × n m\times n m×n实矩阵,$R(A^{T}A)=R(A)\$
证明: 证明 A X = 0 ( 1 ) AX=0 \qquad(1) AX=0(1) A T A X = 0 ( 2 ) A^{T}AX=0\qquad (2) ATAX=0(2)同解系即可;如下:

显然 ( 1 ) (1) (1)的解是 ( 2 ) (2) (2)的解。设 X 0 X_{0} X0 ( 2 ) (2) (2)的解,则 A T A X 0 = 0 A^{T}AX_{0}=0 ATAX0=0
所以有 X 0 T A T A X 0 = 0 , ( A X 0 ) T A X 0 = 0 X_{0}^{T}A^{T}AX_{0}=0,\qquad (AX_{0})^{T}AX_{0}=0 X0TATAX0=0,(AX0)TAX0=0,则 A X 0 = 0 AX_{0}=0 AX0=0,所以 X 0 X_{0} X0也是 ( 2 ) (2) (2)的解,即两个方程组同解进而基础解系含相同的个数的解向量。所以可得,

n − R ( A ) = n − R ( A T A ) R ( A T A ) = R ( A ) n-R(A)=n-R(A^{T}A) \\ R(A^{T}A)=R(A) nR(A)=nR(ATA)R(ATA)=R(A)

1.向量的线性相关,线性无关以及与可逆矩阵的关系

1.1 线性相关与线性无关

定义: 给定向量组 A : a 1 , a 2 , ⋯   , a m A:a_{1},a_{2},\cdots,a_{m} A:a1,a2,,am,如果存在不全为零的数 k 1 , k 2 , ⋯   , k m k_{1},k_{2},\cdots,k_{m} k1,k2,,km,使
k 1 a 1 + k 2 a 2 + ⋯ + k m a m = 0 k_{1}a_{1}+k_{2}a_{2}+\cdots+k_{m}a_{m}=0 k1a1+k2a2++kmam=0
则称向量组 A A A是线性相关的,否则为线性无关。

定理: 向量组 a 1 , a 2 , ⋯ a m a_{1},a_{2},\cdots a_{m} a1,a2,am线性相关的充分必要是它所构成的矩阵 A = ( a 1 , a 2 , ⋯   , a m ) A=(a_{1},a_{2},\cdots,a_{m}) A=(a1,a2,,am)的秩小于向量个数 m m m;向量组线性无关的充分必要条件 R ( A ) = m R(A)=m R(A)=m

例:试讨论 n n n维单位坐标向量组的线性相关性

解: n n n维单位坐标向量组构成的矩阵 E = ( e 1 , e 2 , ⋯   , e n ) E=(e_{1},e_{2},\cdots,e_{n}) E=(e1,e2,,en)是由 n n n阶单位矩阵,由 ∣ E ∣ = 1 ≠ 0 \left | E \right |=1\neq 0 E=1=0,知 R ( E ) = n R(E)=n R(E)=n,即 R ( E ) R(E) R(E)等于向量组中向量个数,由定理可知,此向量组是线性无关的。

1.2 向量的内积,范数,正交,规范正交基

定义: 设有 n n n维向量 x = [ x 1 , x 2 , ⋯   , x n ] T , y = [ y 1 , y 2 , ⋯   , y n ] x=[x_{1},x_{2},\cdots,x_{n}]^{T},\qquad y=[y_{1},y_{2},\cdots,y_{n}] x=[x1,x2,,xn]T,y=[y1,y2,,yn],令 [ x , y ] = x 1 y 1 + x 2 y 2 + ⋯ + x n y n [x,y]=x_{1}y_{1}+x_{2}y_{2}+\cdots+x_{n}y_{n} [x,y]=x1y1+x2y2++xnyn称为向量 x x x y y y的内积,内积是两个向量之间的一种运算,其结果是一个实数,用矩阵记号表示,当 x x x y y y都是列向量时,有
[ x , y ] = x T y [x,y]=x^{T}y [x,y]=xTy

内积具有下列性质(其中 x , y , z x,y,z x,y,z n n n维向量, λ \lambda λ为实数)

(i) [ x , y ] = [ y , x ] [x,y]=\left[ y,x \right ] [x,y]=[y,x]

(ii) [ λ x , y ] = λ [ x , y ] [\lambda x,y]=\lambda [x,y] [λx,y]=λ[x,y]

(iii) [ x + y , z ] = [ x , z ] + [ y , z ] [x+y,z]=[x,z]+[y,z] [x+y,z]=[x,z]+[y,z]

(iv)当 x = 0 x =0 x=0时, [ x , x ] = 0 ; 当 x ≠ 0 , [ x , x ] > 0 [x,x]=0;当x\neq 0,[x,x]>0 [x,x]=0x=0,[x,x]>0

由 这 些 定 义 以 及 二 维 空 间 向 量 夹 角 的 概 念 c o s θ = [ a , b ] ∥ a ∥ ∥ b ∥ \color{red}{由这些定义以及二维空间向量夹角的概念cos\theta =\frac{[a,b]}{\left \| a \right \|\left \| b \right \|}} cosθ=ab[a,b],我们可以推广到高维空间,也可以用来衡量高维空间中两个样本的相似度的一种度量(不同于欧氏距离)

柯西不等式

[ x , y ] 2 ≤ [ x , x ] [ y , y ] [x,y]^{2}\leq[x,x][y,y] [x,y]2[x,x][y,y]

证明: ∀ x , y ∈ R n , l e t : z = x − λ y , [ z , z ] = [ x − λ y , x − λ y ] = [ x , x ] − 2 λ [ x , y ] + λ 2 [ y , y ] ≤ 0 ∀ λ , Δ = 4 [ x , y ] 2 − 4 [ x , x ] [ y , y ] ≤ 0 , [ x , y ] 2 ≤ [ x , x ] [ y , y ] \forall x,y\in \mathbb{R}^{n},let:\quad z=x-\lambda y,[z,z]=[x-\lambda y,x-\lambda y]=[x,x]-2\lambda[x,y]+\lambda^{2}[y,y]\leq 0 \\ \forall \lambda,\Delta=4[x,y]^{2}-4[x,x][y,y]\leq 0,\qquad [x,y]^{2}\leq [x,x][y,y] x,yRn,let:z=xλy,[z,z]=[xλy,xλy]=[x,x]2λ[x,y]+λ2[y,y]0λ,Δ=4[x,y]24[x,x][y,y]0,[x,y]2[x,x][y,y]

范数与正交

**定义:**令 ∥ x ∥ = [ x , x ] = x 1 2 + x 2 2 + ⋯ + x n 2 \left \| x \right \|=\sqrt{[x,x]}=\sqrt{x_{1}^{2}+x_{2}^{2}+\cdots+x_{n}^{2}} x=[x,x] =x12+x22++xn2 , ∥ x ∥ \qquad \left \| x \right \| x称为 n n n维向量 x x x的长度(或者范数).

∥ x ∥ = 1 \left \| x \right \|=1 x=1时,称 x x x为单位向量

向量的长度具下述性质:

(i)非负性,当 x ≠ 0 x\neq 0 x=0时, ∥ x ∥ > 0 ; \left \| x \right \|>0; x>0; x = 0 x=0 x=0时, ∥ x ∥ = 0 \left \| x \right \|=0 x=0

(ii)齐次性, ∥ λ x ∥ = ∣ λ ∣ ∥ x ∥ \left \| \lambda x \right \|=|\lambda|\left \| x \right \| λx=λx;

(iii)三角不等式 ∥ x + y ∥ ≤ ∥ x ∥ + ∥ y ∥ \left \| x+y \right \|\leq \left \| x \right \|+\left \| y \right \| x+yx+y(证明:不等式两边平方,然后利用柯西不等式即可证明)

[ x , y ] = 0 [x,y]=0 [x,y]=0时,,称向量 x x x y y y正交,显然,若 x = 0 x=0 x=0,则 x x x与任何向量都正交.

定理: n n n维向量 a 1 , a 2 , ⋯ a r a_{1},a_{2},\cdots a_{r} a1,a2,ar是一组两两正交的非零向量,则 a 1 , a 2 , ⋯   , a r a_{1},a_{2},\cdots,a_{r} a1,a2,,ar线性无关.

规范正交基

定义: n n n维向量 e 1 , e 2 , ⋯   , e r e_{1},e{2},\cdots,e_{r} e1,e2,,er是向量空间 V ( V ∈ R n ) V(V\in \mathbb{R}^{n}) V(VRn)的一个基,如果 e 1 , e 2 , ⋯ e r e_{1},e_{2},\cdots e_{r} e1,e2,er两两正交,且都为单位向量,则称 e 1 , e 2 , ⋯ e r e_{1},e_{2},\cdots e_{r} e1,e2,er V V V的一个规范正交基.

e 1 , e 2 , ⋯ e r e_{1},e_{2},\cdots e_{r} e1,e2,er V V V的一个规范正交基,那么 V V V中的任一向量 a a a应能由 e 1 , e 2 , ⋯ e r e_{1},e_{2},\cdots e_{r} e1,e2,er线性表示。

2.施密特正交化

a 1 , ⋯   , a r a_{1},\cdots,a_{r} a1,,ar是向量空间 V V V的一个基,要求 V V V的一个规范正交基,这也就是要找一组两两正交的单位向量 e 1 , ⋯   , e r e_{1},\cdots,e_{r} e1,,er,使 e 1 , ⋯   , e r e_{1},\cdots,e_{r} e1,,er a 1 , ⋯   , a r a_{1},\cdots,a_{r} a1,,ar等价,这样的一个问题,称为把 a 1 , a 2 , ⋯   , a r a_{1},a_{2},\cdots,a_{r} a1,a2,,ar这个基规范正交化。

我们可以用以下办法把 a 1 , ⋯   , a r a_{1},\cdots,a_{r} a1,,ar规范正交化:取
b 1 = a ; b 2 = a 2 − [ b 1 , a 2 ] [ b 1 , b 1 ] b 1 ⋯ ⋯ ⋯ b r = a r − [ b 1 , a r ] [ b 1 , b 1 ] b 1 − [ b 2 , a r ] [ b 2 , b 2 ] b 2 − ⋯ − [ b r − 1 , a r ] [ b r − 1 , b r − 1 ] b r − 1 b_{1}=a;\\b_{2}=a_{2}-\frac{[b_{1},a_{2}]}{[b_{1},b_{1}]}b_{1}\\\cdots\cdots\cdots\\b_{r}=a_{r}-\frac{[b_{1},a_{r}]}{[b_{1},b_{1}]}b_{1}-\frac{[b_{2},a_{r}]}{[b_{2},b_{2}]}b_{2}-\cdots-\frac{[b_{r-1},a_{r}]}{[b_{r-1},b_{r-1}]}b_{r-1} b1=a;b2=a2[b1,b1][b1,a2]b1br=ar[b1,b1][b1,ar]b1[b2,b2][b2,ar]b2[br1,br1][br1,ar]br1

容易验证, b 1 , b 2 , ⋯   , b r b_{1},b_{2},\cdots,b_{r} b1,b2,,br两两正交,且 b 1 , ⋯ , b r b_{1},\cdots,b_{r} b1,br a 1 , ⋯ a r a_{1},\cdots a_{r} a1,ar等价,然后只要对它们单位化,即取

e r = 1 ∥ b r ∥ b r . ( r = 1 , 2 , ⋯   , ) e_{r}=\frac{1}{\left \| b_{r} \right \|}b_{r}.\qquad (r=1,2,\cdots,) er=br1br.(r=1,2,,)
就是空间 V V V的一个规范正交基

定义: 如果 n n n阶矩阵 A A A满足 A T A = E A^{T}A=E ATA=E(即 A − 1 = A T A^{-1}=A^{T} A1=AT),那么称 A A A为正交矩阵,简称正交阵

上式用 A A A的列向量表示,即是
[ a 1 T a 2 T , ⋮ a n T ] ( a 1 , a 2 , ⋯   , a n ) = E \begin{bmatrix} a_{1}^{T}\\a_{2}^{T},\\ \vdots\\a_{n}^{T} \end{bmatrix}(a_{1},a_{2},\cdots,a_{n}) =E a1Ta2T,anT(a1,a2,,an)=E

因为 A T A = E A^{T}A=E ATA=E A A T = E AA^{T}=E AAT=E等价,所以上述结论对 A A A的行向量亦成立。
由此可见, n n n阶正交阵 A A A n n n个列(行)向量构成向量空间 R n \mathbb{R}^{n} Rn的一个规范正交基

3.特征值和特征向量的定义以及直观的意义

定义: A A A n n n阶矩阵,如果数 λ \lambda λ n n n维非零列向量 x x x使关系式
A x = λ x Ax=\lambda x Ax=λx
成立,那么,这样的数 λ \lambda λ称为矩阵 A A A的特征值,非零向量 x x x称为 A A A的对应特征值 λ \lambda λ的特征向量

直观意义:将一个矩阵作用在一个向量上,即线性变换,得到的向量与原向量平行(或者说线性相关)

特征方程: ( A − λ E ) x = 0 (A-\lambda E)x=0 (AλE)x=0

特征多项式
∣ a 11 − λ a 12 ⋯ a 1 n a 21 a 22 − λ ⋯ a 2 n ⋮ ⋮ ⋱ ⋮ a n 1 a n 2 ⋯ a n n − λ ∣ = 0 \begin{vmatrix} a_{11}-\lambda& a_{12}&\cdots &a_{1n} \\ a_{21}&a_{22}-\lambda &\cdots &a_{2n}\\ \vdots&\vdots &\ddots &\vdots\\ a_{n1}&a_{n2} &\cdots &a_{nn}-\lambda \end{vmatrix}=0 a11λa21an1a12a22λan2a1na2nannλ=0

推论

(i) λ 1 + λ 2 + ⋯ + λ n = t r ( A ) \lambda_{1}+\lambda_{2}+\cdots+\lambda_{n}=tr(A) λ1+λ2++λn=tr(A)

(ii) λ 1 λ 2 ⋯ λ n = ∣ A ∣ \lambda_{1}\lambda_{2}\cdots\lambda_{n}=|A| λ1λ2λn=A

λ = λ i \lambda=\lambda_{i} λ=λi为矩阵 A A A的一个特征值,则由方程 ( A − λ i E ) x = 0 (A-\lambda_{i}E)x=0 (AλiE)x=0可求得非零解 x = p i x=p_{i} x=pi,那么 p i p_{i} pi便是 A A A的对应特征值 λ i \lambda_{i} λi的特征向量.

ps: 对于任意矩阵 A A A其线性无关的特征向量个数小于矩阵的阶数(即特征值的个数(包含重根个数))

(iii)设 λ \lambda λ是方阵 A A A的特征值,则 λ 2 \lambda^{2} λ2 A 2 A^{2} A2的特征值;当 A A A可逆时, 1 λ \frac{1}{\lambda} λ1 A − 1 A^{-1} A1的特征值

Prove: ∵ λ \because \qquad \lambda λ A A A的特征值

∴ p ≠ 0 s u c h t h a t A p = λ p \therefore \qquad p\neq 0\qquad\qquad such \quad that \quad Ap=\lambda p p=0suchthatAp=λp

∴ A 2 p = A ( A p ) = A ( λ p ) = λ ( A p ) = λ 2 p \therefore \qquad A^{2}p=A(Ap)=A(\lambda p)=\lambda(Ap)=\lambda^{2}p A2p=A(Ap)=A(λp)=λ(Ap)=λ2p

W h e n A When A WhenA是可逆时,由 A p = λ p Ap=\lambda p Ap=λp,有 p = λ A − 1 p p=\lambda A^{-1}p p=λA1p,由于 p ≠ 0 p\neq 0 p=0,知 λ ≠ 0 \lambda \neq 0 λ=0

∴ A − 1 p = 1 λ p \therefore A^{-1}p=\frac{1}{\lambda}p A1p=λ1p

按此例类推,不难证明: λ \lambda λ A A A的特征值,则 λ k \lambda^{k} λk A k A^{k} Ak的特征值; φ ( λ ) \varphi (\lambda) φ(λ) φ ( A ) \varphi (A) φ(A)的特征值,其中 φ ( λ ) = a 0 + a 1 λ + ⋯ + a m λ m \varphi (\lambda)=a_{0}+a_{1}\lambda +\cdots+a_{m}\lambda^{m} φ(λ)=a0+a1λ++amλm λ \lambda λ的多项式, φ ( A ) = a 0 E + a 1 A + ⋯ + a m A m \varphi (A)=a_{0}E+a_{1}A+\cdots+a_{m}A^{m} φ(A)=a0E+a1A++amAm是矩阵 A A A的多项式

定理: λ 1 , λ 2 , ⋯   , λ m \lambda_{1},\lambda_{2},\cdots,\lambda^{m} λ1,λ2,,λm是矩阵 A A A m m m个特征值, p 1 , p 2 , ⋯ p m p_{1},p_{2},\cdots p_{m} p1,p2,pm依次是与之对应的特征向量,如果 λ 1 , ⋯   , λ m \lambda_{1},\cdots,\lambda_{m} λ1,,λm各不相等,则 p 1 , p 2 , ⋯   , p m p_{1},p_{2},\cdots,p_{m} p1,p2,,pm线性无关.

例题 λ 1 a n d λ 2 \lambda_{1} \quad and \quad \lambda_{2} λ1andλ2是矩阵 A A A的两个不同的特征值,对应的特征向量依次为 p 1 p_{1} p1 p 2 p_{2} p2,证明 p 1 + p 2 p_{1}+p_{2} p1+p2不是 A A A的特征向量.

证明: 由题可知, A p 1 = λ 1 p 1 , A 2 p = λ 2 p 2 Ap_{1}=\lambda_{1}p_{1},\qquad A_{2}p=\lambda^{2}p_{2} Ap1=λ1p1,A2p=λ2p2,所以有 A ( p 1 + p 2 ) = λ 1 p 1 + λ 2 p 2 A(p_{1}+p_{2})=\lambda_{1}p_{1}+\lambda_{2}p_{2} A(p1+p2)=λ1p1+λ2p2

用反证法,假设 p 1 + p 2 p_{1}+p_{2} p1+p2 A A A的特征向量,则应存在数 λ \lambda λ,使得 A ( P 1 + P 2 ) = λ ( P 1 + P 2 ) A(P_{1}+P_{2})=\lambda(P_{1}+P_{2}) A(P1+P2)=λ(P1+P2),于是

λ ( p 1 + p 2 ) = λ 1 p 1 + λ 2 p 2 \lambda(p_{1}+p_{2})=\lambda_{1}p_{1}+\lambda_{2}p_{2} λ(p1+p2)=λ1p1+λ2p2,即 ( λ 1 − λ ) p 1 + ( λ 2 − λ ) p 2 = 0 (\lambda_{1}-\lambda)p_{1}+(\lambda_{2}-\lambda)p_{2}=0 (λ1λ)p1+(λ2λ)p2=0

因为 λ 1 ≠ λ 2 \lambda_{1}\neq \lambda_{2} λ1=λ2,所以按照定理可知 p 1 , p 2 p_{1},p_{2} p1,p2线性无关,故由上式得 λ 1 − λ = λ 2 − λ = 0 \lambda_{1}-\lambda=\lambda_{2}-\lambda=0 λ1λ=λ2λ=0,即 λ 1 = λ 2 \lambda_{1}=\lambda_{2} λ1=λ2。与假设矛盾,因此 p 1 + p 2 p_{1}+p_{2} p1+p2不是 A A A的特征向量。

五、相似矩阵的定义以及矩阵的对角化

**定义:**设 A , B A,B A,B都是 n n n阶矩阵,若有可逆矩阵 P P P,使得
P − 1 A P = B O R P A P − 1 = B P^{-1}AP=B \qquad OR \qquad PAP^{-1}=B P1AP=BORPAP1=B
则称 B B B A A A的相似矩阵,或者说矩阵 A A A B B B相似,对 A A A进行运算 P − 1 A P P^{-1}AP P1AP称为对 A A A进行相似变换,可逆矩阵 P P P称为把 A A A变成 B B B的相似变换矩阵.

定理: n n n阶矩阵 A A A B B B相似,则 A A A B B B的特征多项式相同,从而 A A A B B B的特征值亦相同。

证明: 设矩阵 B B B的特征多项式为
f B ( λ ) = ∣ B − λ E ∣ = ∣ P − 1 A P − λ P − 1 E P ∣ = ∣ P − 1 ( A − λ E ) P ∣ = ∣ A − λ E ∣ f_{B(\lambda)}=|B-\lambda E|=|P^{-1}AP-\lambda P^{-1}EP|=|P^{-1}(A-\lambda E)P|=|A-\lambda E| fB(λ)=BλE=P1APλP1EP=P1(AλE)P=AλE

推论: n n n阶矩阵$A与对角阵相似

Λ = ( λ 1 λ 2 ⋱ λ n ) \Lambda=\begin{pmatrix} \lambda_{1}& & &\\ & \lambda_{2}& &\\ & & \ddots&\\ & & &\lambda_{n} \end{pmatrix} Λ=λ1λ2λn
相似,则 λ 1 , λ 2 , ⋯   , λ n \lambda_{1},\lambda_{2},\cdots,\lambda_{n} λ1,λ2,,λn A A A n n n个特征值。

下面我们要讨论的主要问题是:对 n n n阶矩阵 A A A,寻求相似变换矩阵 P P P,使得
P − 1 A P = Λ P^{-1}AP=\Lambda P1AP=Λ为对角阵,这就称为把矩阵 A A A对角化.

假设已经找到可逆矩阵 P P P,使得 P − 1 A P = Λ P^{-1}AP=\Lambda P1AP=Λ,我们来讨论 P P P应满足什么关系.

P P P用其列向量表示为
P = ( p 1 , p 2 , ⋯   , p n ) P=(p_{1},p_{2},\cdots,p_{n}) P=(p1,p2,,pn)
P − 1 A P = Λ P^{-1}AP=\Lambda P1AP=Λ,得到 A P = P Λ AP=P\Lambda AP=PΛ


A ( p 1 , p 2 , ⋯   , p n ) = ( p 1 , p 2 , ⋯   , p n ) ( λ 1 λ 2 ⋱ λ n ) = ( λ 1 p 1 , λ 2 p 2 , ⋯   , λ n p n ) A(p_{1},p_{2},\cdots,p_{n})=(p_{1},p_{2},\cdots,p_{n})\begin{pmatrix} \lambda_{1}& & &\\ & \lambda_{2}& &\\ & & \ddots&\\ & & &\lambda_{n} \end{pmatrix}=(\lambda_{1}p_{1},\lambda_{2}p_{2},\cdots,\lambda_{n}p_{n}) A(p1,p2,,pn)=(p1,p2,,pn)λ1λ2λn=(λ1p1,λ2p2,,λnpn)

于是有, A p i = λ i p i , ( i = 1 , 2 , ⋯   , n ) Ap_{i}=\lambda_{i}p_{i},\quad (i=1,2,\cdots,n) Api=λipi,(i=1,2,,n)

5.1一般矩阵对角化的条件

定理: n n n阶矩阵 A A A与对角阵相似(即 A A A能对角化)的充分必要条件是 A A A n n n个线性无关的特征向量.

定理: λ 1 , λ 2 , ⋯   , λ m \lambda_{1},\lambda_{2},\cdots,\lambda_{m} λ1,λ2,,λm是方阵 A A A m m m个特征值, p 1 , p 2 , ⋯   , p m p_{1},p_{2},\cdots,p_{m} p1,p2,,pm依次是与之对应的特征向量,如果 λ 1 , λ 2 , ⋯   , λ m \lambda_{1},\lambda_{2},\cdots,\lambda_{m} λ1,λ2,,λm各不相等, p 1 , p 2 , ⋯   , p m p_{1},p_{2},\cdots,p_{m} p1,p2,,pm线性无关。

推论: 如果 n n n阶矩阵 A A A n n n个特征值互不相等,则 A A A与对角阵相似。

5.2 对称矩阵对角化

定理: 实对称矩阵的特征值为实数。

证明: 设实对称矩阵 A A A的特征值为 λ \lambda λ,特征向量为 x x x,那么

A x = λ x ( 1 ) Ax=\lambda x \qquad (1)\qquad \qquad Ax=λx(1)等式两边取共轭,那么得到 A ˉ x ˉ = λ ˉ x ˉ \bar{A}\bar{x}=\bar{\lambda}\bar{x} Aˉxˉ=λˉxˉ,

又因为 A A A为实对称矩阵,所以可得 A x ˉ = λ ˉ x ˉ A\bar{x}=\bar{\lambda}\bar{x} Axˉ=λˉxˉ,等式(1)两边转置并右乘以 x ˉ \bar{x} xˉ,得
x T A x ˉ = λ x T x ˉ x^{T}A\bar{x}=\lambda x^{T}\bar{x} xTAxˉ=λxTxˉ
所以, λ ˉ x T x ˉ = λ x T x ˉ \bar{\lambda}x^{T}\bar{x}=\lambda x^{T}\bar{x} λˉxTxˉ=λxTxˉ,又因为 x x x为非零向量,所以 λ ˉ = λ \bar{\lambda}=\lambda λˉ=λ,即 λ \lambda λ为实数.

定理 λ 1 , λ 2 \lambda_{1},\lambda_{2} λ1,λ2是对称矩阵 A A A的两个特征值, p 1 , p 2 p_{1},p_{2} p1,p2是对应特征向量,若 λ 1 ≠ λ 2 \lambda_{1} \neq \lambda_{2} λ1=λ2,则 p 1 p_{1} p1 p 2 p_{2} p2正交。

证明: 由题可知, λ 1 p 1 T = ( λ 1 p 1 ) T = ( A p 1 ) T = p 1 T A \lambda_{1}p_{1}^{T}=(\lambda_{1}p_{1})^{T}=(Ap_{1})^{T}=p_{1}^{T}A λ1p1T=(λ1p1)T=(Ap1)T=p1TA,于是 λ 1 p 1 T p 2 = p 1 T A p 2 = p 1 T λ 2 p 2 = λ 2 p 1 T p 2 \lambda_{1}p_{1}^{T}p_{2}=p_{1}^{T}Ap_{2}=p_{1}^{T}\lambda_{2}p_{2}=\lambda_{2}p_{1}^{T}p_{2} λ1p1Tp2=p1TAp2=p1Tλ2p2=λ2p1Tp2

( λ 1 − λ 2 ) p 1 T p 2 = 0 (\lambda_{1}-\lambda_{2})p_{1}^{T}p_{2}=0 (λ1λ2)p1Tp2=0

但是 λ 1 ≠ λ 2 \lambda_{1}\neq \lambda_{2} λ1=λ2,故 p 1 T p 2 = 0 p_{1}^{T}p_{2}=0 p1Tp2=0,即 p 1 与 p 2 p_{1}与p_{2} p1p2正交。

**结论:**实对称矩阵 n × n n\times n n×n一定可以对角化,且一定有 n n n个线性无关的特征向量.

定理: A A A n n n阶对称阵,则必有正交矩阵 P P P,使得 P − 1 A P = P T A P = Λ P^{-1}AP=P^{T}AP=\Lambda P1AP=PTAP=Λ,其中 Λ \Lambda Λ是以 A A A n n n个特征值为对角元的对角阵。

推论: A A A n n n阶对称阵, λ \lambda λ A A A的特征方程的 k k k重根,则矩阵 A − λ E A-\lambda E AλE的秩 R ( A − λ E ) = n − k R(A-\lambda E)=n-k R(AλE)=nk ,且对应特征值 λ \lambda λ
恰有 k k k个线性无关的特征向量.

对称矩阵对角化步骤:

(i)求出 A A A的全部互不相等的特征值 λ 1 , λ 2 , ⋯   , λ s \lambda_{1},\lambda_{2},\cdots,\lambda_{s} λ1,λ2,,λs,它们的重数依次为 k 1 , k 2 , ⋯   , k s , ( k 1 + k 2 + ⋯ + k s = n ) k_{1},k_{2},\cdots,k_{s},\qquad (k_{1}+k_{2}+\cdots+k_{s}=n) k1,k2,,ks,(k1+k2++ks=n)

(ii)对每个 k i k_{i} ki重特征值 λ i \lambda_{i} λi,求方程 ( A − λ i E ) x = 0 (A-\lambda_{i}E)x=0 (AλiE)x=0的基础解系。得 k i k_{i} ki个线性无关得特征向量,再把它们正交化,单位化,得 k i k_{i} ki个两两正交的单位特征向量,因为 k 1 + ⋯ + k s = n k_{1}+\cdots+k_{s}=n k1++ks=n,故总共可得 n n n个两两正交的单位特征向量。

(iii) 把这 n n n个两两正交的单位特征向量构成正交矩阵 P P P,便有 P − 1 A P = P T A P = Λ P^{-1}AP=P^{T}AP=\Lambda P1AP=PTAP=Λ,注意 Λ \Lambda Λ中的对角元的排列次序应与 P P P中列向量的排列次序相对应。

5.3 对角化在数据压缩算法中的简单应用

A A A n n n阶对称阵
A = P − 1 Λ P = P T Λ P A=P^{-1}\Lambda P=P^{T}\Lambda P A=P1ΛP=PTΛP

n n n阶的对称阵需要多少个参数呢? n ( n + 1 ) 2 \frac{n(n+1)}{2} 2n(n+1)

P T = ( P 1 , P 2 , ⋯   , P N ) P^{T}=(P_{1},P_{2},\cdots,P_{N}) PT=(P1,P2,,PN)

A = ( P 1 , p 2 , ⋯   , p n ) ( λ 1 λ 2 ⋱ λ n ) ( p 1 T p 2 T ⋮ p n T ) = λ 1 p 1 p 1 T + λ 2 p 2 p 2 T + ⋯ + λ n p n p n T (1) A=(P_{1},p_{2},\cdots,p_{n})\begin{pmatrix} \lambda_{1}& & &\\ & \lambda_{2}& &\\ & & \ddots&\\ & & &\lambda_{n} \end{pmatrix}\begin{pmatrix} p_{1}^{T}\\p_{2}^{T}\\\vdots\\p_{n}^{T} \end{pmatrix}=\lambda_{1}p_{1}p_{1}^{T}+\lambda_{2}p_{2}p^{T}_{2}+\cdots+\lambda_{n}p_{n}p_{n}^{T}\tag{1} A=(P1,p2,,pn)λ1λ2λnp1Tp2TpnT=λ1p1p1T+λ2p2p2T++λnpnpnT(1)

假设 ∣ λ 1 ∣ ≥ ∣ λ 2 ∣ ≥ ∣ λ 3 ∣ ⋯ ≥ ∣ λ n ∣ |\lambda_{1}|\geq|\lambda_{2}|\geq|\lambda_{3}|\cdots \geq|\lambda_{n}| λ1λ2λ3λn

现在需要节省内存,可在损失一点精度的情况下来节省内存。对式子 ( 1 ) (1) (1)近似,可得

A ≈ λ 1 p 1 p 1 T + ⋯ + λ k p k p k T k ≤ n A\approx \lambda_{1}p_{1}p_{1}^{T}+\cdots+\lambda_{k}p_{k}p_{k}^{T} \qquad k\leq n Aλ1p1p1T++λkpkpkTkn
那么此时需要多少个参数存 A A A矩阵呢?

首先 λ 1 , ⋯   , λ k \lambda_{1},\cdots,\lambda_{k} λ1,,λk k k k个参数,以及向量 p 1 , ⋯   , p k p_{1},\cdots,p_{k} p1,,pk n × k n\times k n×k个参数,总共有 k ( n + 1 ) k(n+1) k(n+1)个参数。

而原需要 n ( n + 1 ) 2 = n 2 ( n + 1 ) \frac{n(n+1)}{2}=\frac{n}{2}(n+1) 2n(n+1)=2n(n+1)

n = 100 n=100 n=100,取 k = 10 k=10 k=10,那么可节省5倍内存.

损失精度为:
e r r = 1 − ∑ i = 1 k ∣ λ i ∣ ∑ i = 1 n ∣ λ i ∣ err=1-\frac{\sum_{i=1}^{k}|\lambda_{i}|}{\sum^{n}_{i=1}|\lambda_{i}|} err=1i=1nλii=1kλi

5.4 二次型以及矩阵的正定性

在解析几何中,为了便于研究二次曲线
a x ′ 2 + b x ′ y ′ + c y ′ 2 = 1 ax'^{2}+bx'y'+cy'^{2}=1 ax2+bxy+cy2=1
的几何性质,可以选择适当的坐标旋转变换
{ x = x ′ c o s θ − y ′ s i n θ y = x ′ s i n θ + y ′ c o s θ \left\{\begin{matrix} x={x}'cos\theta-{y}'sin\theta\\ y={x}'sin\theta+{y}'cos\theta \end{matrix}\right. {x=xcosθysinθy=xsinθ+ycosθ

( x y ) = ( c o s θ − s i n θ s i n θ c o s θ ) ( x ′ y ′ ) \begin{pmatrix} x\\y \end{pmatrix}=\begin{pmatrix} cos\theta&-sin\theta\\ sin\theta&cos\theta \end{pmatrix}\begin{pmatrix} {x}'\\{y}' \end{pmatrix} (xy)=(cosθsinθsinθcosθ)(xy)

把方程化为标准型
m x 2 + n y 2 = 1 m{x}^{2}+n{y}^{2}=1 mx2+ny2=1

定义: 含有 n n n个变量 x 1 , x 2 , ⋯   , x n x_{1},x_{2},\cdots,x_{n} x1,x2,,xn的二次齐次函数
f ( x 1 , x 2 , ⋯   , x n ) = a 11 x 1 2 + a 22 x 2 2 + ⋯ + a n n x n 2 + 2 a 12 x 1 x 2 + 2 a 13 x 1 x 3 + ⋯ + 2 a n − 1 , n x n − 1 x n f(x_{1},x_{2},\cdots,x_{n})=a_{11}x_{1}^{2}+a_{22}x_{2}^{2}+\cdots+a_{nn}x_{n}^{2}+2a_{12}x_{1}x_{2}+2a_{13}x_{1}x_{3}+ \cdots+2a_{n-1,n}x_{n-1}x_{n} f(x1,x2,,xn)=a11x12+a22x22++annxn2+2a12x1x2+2a13x1x3++2an1,nxn1xn
称为二次型。

对于二次型,我们讨论的主要问题是:寻找可逆的线性变换
{ x 1 = c 11 y 1 + c 12 y 2 + ⋯ + c 1 n y n x 2 = c 21 y 1 + c 22 y 2 + ⋯ + c 2 n y n ⋯ ⋯ x n = c n 1 y 1 + c n 2 y 2 + ⋯ + c n n y n \left\{\begin{matrix} x_{1}=c_{11}y_{1}+c_{12}y_{2}+\cdots+c_{1n}y_{n}\\ x_{2}=c_{21}y_{1}+c_{22}y_{2}+\cdots+c_{2n}y_{n}\\ \cdots \cdots\\ x_{n}=c_{n1}y_{1}+c_{n2}y_{2}+\cdots+c_{nn}y_{n} \end{matrix}\right. x1=c11y1+c12y2++c1nynx2=c21y1+c22y2++c2nynxn=cn1y1+cn2y2++cnnyn
使二次型只含平方项,也就是 f = k 1 y 1 2 + k 2 y 2 2 + ⋯ + k n y n 2 f=k_{1}y_{1}^{2}+k_{2}y_{2}^{2}+\cdots+k_{n}y_{n}^{2} f=k1y12+k2y22++knyn2
这种只含平方项的二次型,称为二次型的标准型(或法式)

如果标准形的系数 k 1 , k 2 , k n k_{1},k_{2},k_{n} k1,k2,kn只在1,-1,0三个数中取值,能使
f = y 1 2 + y 2 2 − y 3 2 + ⋯ f=y_{1}^{2}+y_{2}^{2}-y_{3}^{2}+\cdots f=y12+y22y32+
称上式为二次型的规范型.

一般的二次型可写成
f = a 11 x 1 2 + a 12 x 1 x 2 + ⋯ + a 1 n x 1 x n + a 21 x 2 x 1 + a 22 x 2 2 + ⋯ + a 2 n x 2 x n + ⋯ + a n 1 x n x 1 + a n 2 x n x 2 + ⋯ + a n n x n 2 = ∑ i , j = 1 n a i j x i x j = ( x 1 x 2 , ⋯   , x n ) ( a 11 a 12 ⋯ a 1 n a 21 a 22 ⋯ a 2 n ⋮ ⋮ ⋱ ⋮ a n 1 a n 2 ⋯ a n n ) ( x 1 x 2 ⋮ x n ) f=a_{11}x_{1}^{2}+a_{12}x_{1}x_{2}+\cdots+a_{1n}x_{1}x_{n}+ \\a_{21}x_{2}x_{1}+a_{22}x_{2}^{2}+\cdots+a_{2n}x_{2}x_{n} \\+\cdots+a_{n1}x_{n}x_{1}+a_{n2}x_{n}x_{2}+\cdots+a_{nn}x_{n}^{2} \\=\sum_{i,j=1}^{n}a_{ij}x_{i}x_{j} \\=\begin{pmatrix} x_{1}&x_{2},\cdots,x_{n} \end{pmatrix}\begin{pmatrix} a_{11}& a_{12}&\cdots &a_{1n}\\ a_{21}& a_{22}&\cdots &a_{2n}\\ \vdots& \vdots&\ddots &\vdots\\ a_{n1}&a_{n2} &\cdots &a_{nn} \end{pmatrix}\begin{pmatrix} x_{1}\\x_{2}\\\vdots\\x_{n} \end{pmatrix} f=a11x12+a12x1x2++a1nx1xn+a21x2x1+a22x22++a2nx2xn++an1xnx1+an2xnx2++annxn2=i,j=1naijxixj=(x1x2,,xn)a11a21an1a12a22an2a1na2nannx1x2xn


A = ( a 11 a 12 ⋯ a 1 n a 21 a 22 ⋯ a 2 n ⋮ ⋮ ⋱ ⋮ a n 1 a n 2 ⋯ a n n ) , x = ( x 1 x 2 ⋮ x n ) A=\begin{pmatrix} a_{11}& a_{12}&\cdots &a_{1n}\\ a_{21}& a_{22}&\cdots &a_{2n}\\ \vdots& \vdots&\ddots &\vdots\\ a_{n1}&a_{n2} &\cdots &a_{nn} \end{pmatrix},\qquad x=\begin{pmatrix} x_{1}\\x_{2}\\\vdots\\x_{n} \end{pmatrix} A=a11a21an1a12a22an2a1na2nann,x=x1x2xn

则二次型可记作
f = x T A x f=x^{T}Ax f=xTAx
其中 A A A为对称阵.

如果 A A A是对角矩阵该多好呀,就变成了标准型甚至规范型.

由前面可知,实对称矩阵一定可对角化,即 Λ = P T A P = P − 1 A P \Lambda=P^{T}A P=P^{-1}A P Λ=PTAP=P1AP

x = P y x=Py x=Py,则 f = y T P T A P y = y T Λ y f=y^{T}P^{T}APy=y^{T}\Lambda y f=yTPTAPy=yTΛy,

推论: 对称矩阵 A A A为正定的充分必要条件是: A A A的特征值全为正.

定义: 设有二次型 f ( x ) = x T A x f(x)=x^{T}Ax f(x)=xTAx,如果对任何 x ≠ 0 x\neq 0 x=0,都有 f ( x ) > 0 f(x)>0 f(x)>0(显然f(0)=0),则称 f f f为正定二次型,并称对称阵 A A A是正定的;如果对任何
x ≠ 0 x\neq 0 x=0,都有 f ( x ) < 0 f(x)<0 f(x)<0,则称 f f f为负定二次型,并称对称矩阵 A A A是负定的。

x T A x = ∑ i = 1 n λ i y i 2 > 0 x^{T}Ax=\sum_{i=1}^{n}\lambda_{i}y_{i}^{2}>0 xTAx=i=1nλiyi2>0,则 λ i \lambda_{i} λi都为正;正定。

定理: n n n元二次型 f = x T A x f=x^{T}Ax f=xTAx为正定的充分必要条件:它的标准型的 n n n个系数全为正,即它的规范型的 n n n个系数全为1,亦即它的正惯性指数等于 n n n

补充半正定:
x T A x ≥ 0 ⇔ λ i ≥ 0 x^{T}Ax\geq 0 \Leftrightarrow \lambda_{i}\geq 0 xTAx0λi0,注意 x ≠ 0 x\neq 0 x=0

补充负半定:
x T A x ≤ 0 ⇔ λ i ≤ 0 x^{T}Ax\leq 0 \Leftrightarrow \lambda_{i}\leq 0 xTAx0λi0,注意 x ≠ 0 x\neq 0 x=0

六、矩阵的正定型在机器学习线性回归算法中的运用(高级)

根据文章之前所述,有个问题待解决,问题如下:

N < n , s u c h a s N = 3 , n = 5 ( X T X ) 5 × 5 , R ( X T X ) ≤ R ( X ) ≤ 3 N<n,such \quad as \quad N=3,n=5\\ (X^{T}X)_{5\times 5}\quad ,R(X^{T}X)\leq R(X)\leq 3 N<n,suchasN=3,n=5(XTX)5×5,R(XTX)R(X)3
X T X X^{T}X XTX不可逆

此刻,可重新定义损失函数 J = ∣ ∣ X a − Y ∣ ∣ + λ ∣ ∣ a ∣ ∣ 2 J=||Xa-Y||+\lambda ||a||^{2} J=XaY+λa2

求导,得到 ∂ J ∂ a = X T X a − X T Y + λ a = 0 \frac{\partial J}{\partial a}=X^{T}Xa-X^{T}Y+\lambda a=0 aJ=XTXaXTY+λa=0
,那么
( X T X + λ I ) a = X T Y (X^{T}X+\lambda I)a=X^{T}Y (XTX+λI)a=XTY
( X T X + λ I ) (X^{T}X+\lambda I) (XTX+λI)必可逆,即可得 a = ( X T X + λ I ) − 1 X T Y a=(X^{T}X+\lambda I)^{-1}X^{T}Y a=(XTX+λI)1XTY

关 于 证 明 矩 阵 X T X + λ I 可 逆 \color{red}{关于证明矩阵X^{T}X+\lambda I}可逆 XTX+λI

证明: 从正定性角度来证明

1. a T ( x T x ) a = ( x a ) T ( x a ) ≥ 0 a_{T}(x^{T}x)a=(xa)^{T}(xa)\geq 0 aT(xTx)a=(xa)T(xa)0,即矩阵 X T X X^{T}X XTX半正定,所以 λ i ≥ 0 \lambda_{i}\geq 0 λi0

又因为矩阵(不局限于对称矩阵)的行列式等于其所有特征值相乘,即 x T x = λ 1 λ 2 ⋯ λ n x^{T}x=\lambda_{1}\lambda_{2}\cdots\lambda_{n} xTx=λ1λ2λn
以下对对称矩阵 X T X = P − 1 ( λ 1 ⋱ λ n ) P X^{T}X=P^{-1}\begin{pmatrix} \lambda_{1}& &\\ & \ddots&\\ & &\lambda_{n} \end{pmatrix}P XTX=P1λ1λnP

两边取行列式,所以 X T X = λ 1 λ 2 ⋯ λ n X^{T}X=\lambda_{1}\lambda_{2}\cdots\lambda_{n} XTX=λ1λ2λn

又因为矩阵 X T X X^{T}X XTX半正定,则 λ i ≥ 0 \lambda_{i}\geq 0 λi0,所以 X T X X^{T}X XTX仍然可能为0,不一定可逆.

2. a T ( X T X + λ I ) a = ( X a ) T ( X a ) + λ a T a > 0 a^{T}(X^{T}X+\lambda I)a=(Xa)^{T}(Xa)+\lambda a^{T}a>0 aT(XTX+λI)a=(Xa)T(Xa)+λaTa>0,即矩阵 X T X + λ I X^{T}X+\lambda I XTX+λI正定,所以 λ i ≥ 0 \lambda_{i}\geq 0 λi0

所以 ∣ X T X + λ I ∣ > 0 |X^{T}X+\lambda I|>0 XTX+λI>0恒成立,一定可逆.

加 了 正 则 化 项 的 线 性 回 归 也 称 为 岭 回 归 \color{blue}{加了正则化项的线性回归也称为岭回归} 线

七、SVD分解及其应用

SVD比较复杂,之后再单独分析

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值