目录
一、矩阵的基本概念和意义
定义1 由 m × n m\times n m×n个数 a i j a_{ij} aij( i = 1 , 2 , . . . m i=1,2,...m i=1,2,...m; j = 1 , 2... n j=1,2...n j=1,2...n)排成 m m m行 n n n列的数表
a
11
a
12
.
.
.
a
1
n
a
21
a
22
.
.
.
a
2
n
⋮
⋮
⋱
⋮
a
m
1
a
m
2
⋮
a
m
n
\begin{matrix} a_{11} &a_{12} &... & a_{1n}\\ a_{21} &a_{22} &... & a_{2n}\\ \vdots & \vdots &\ddots &\vdots \\ a_{m1}&a_{m2} &\vdots &a_{mn} \end{matrix}
a11a21⋮am1a12a22⋮am2......⋱⋮a1na2n⋮amn
称为
m
m
m行
n
n
nl列矩阵,简称
m
×
n
m\times n
m×n矩阵,为表示它是一个整数,总是加一个括弧,并用大写黑体字母表示它,记作
A = [ a 11 a 12 . . . a 1 n a 21 a 22 . . . a 2 n ⋮ ⋮ ⋱ ⋮ a m 1 a m 2 ⋮ a m n ] A = \begin{bmatrix} a_{11} &a_{12} &... & a_{1n}\\ a_{21} &a_{22} &... & a_{2n}\\ \vdots & \vdots &\ddots &\vdots \\ a_{m1}&a_{m2} &\vdots &a_{mn} \end{bmatrix} A=⎣⎢⎢⎢⎢⎡a11a21⋮am1a12a22⋮am2......⋱⋮a1na2n⋮amn⎦⎥⎥⎥⎥⎤
这 m × n m\times n m×n个数称为矩阵 A A A的元素,简称元。数 a i j a_{ij} aij位于矩阵的第 i i i行第 j j j列,称为矩阵 A A A的 ( i , j ) (i,j) (i,j)元,以数 a i j a_{ij} aij为 ( i , j ) (i,j) (i,j)元的矩阵可简记为 ( a i j ) (a_{ij}) (aij)或 ( a i j ) m × n (a_{ij})_{m\times n} (aij)m×n, m × n m\times n m×n矩阵 A A A也记作 A m × n A_{m\times n} Am×n。
什么时候是方阵呢?就是当 m = n m = n m=n的时候。
什么是行向量呢?就是当 m = 1 m = 1 m=1
什么是列向量呢?就是当 n = 1 n = 1 n=1
什么是两个矩阵相等呢? 就是两个矩阵对应的元素相等
什么是零矩阵?就是矩阵所有的元素都为0
探讨矩阵的意义
1、一种线性变换
{
y
1
=
a
11
×
x
1
+
a
12
×
x
2
+
⋯
+
a
1
n
×
x
n
y
2
=
a
21
×
x
1
+
a
22
×
x
2
+
⋯
+
a
2
n
×
x
n
⋯
y
m
=
a
m
1
×
x
1
+
a
m
2
×
x
2
+
⋯
+
a
m
n
×
x
n
\left\{\begin{matrix} y_{1}=a_{11}\times x_{1} + a_{12}\times x_{2} + \cdots + a_{1n}\times x_{n}\\ y_{2} = a_{21}\times x_{1}+a_{22}\times x_{2} + \cdots + a_{2n}\times x_{n}\\ \cdots \\ y_{m} = a_{m1}\times x_{1}+a_{m2}\times x_{2} + \cdots + a_{mn}\times x_{n} \end{matrix}\right.
⎩⎪⎪⎨⎪⎪⎧y1=a11×x1+a12×x2+⋯+a1n×xny2=a21×x1+a22×x2+⋯+a2n×xn⋯ym=am1×x1+am2×x2+⋯+amn×xn
表示一个从变量
x
1
,
x
2
,
⋯
x
n
x_{1},x_{2}, \cdots x_{n}
x1,x2,⋯xn到变量
y
1
,
y
2
,
⋯
y
m
y_{1},y_{2}, \cdots y_{m}
y1,y2,⋯ym的线性变换,其中系数
a
i
j
a_{ij}
aij构成矩阵
A
=
(
a
i
j
)
m
×
n
A = (a_{ij})_{m \times n}
A=(aij)m×n
恒等变换就是矩阵 A A A为单位矩阵
对角矩阵即除了对角之外,其他元素都为零
2、加法与数乘
定义2, 设有两个 m × n m\times n m×n矩阵 A = ( a i j ) A = (a_{ij}) A=(aij)和矩阵 B = ( b i j ) B = (b_{ij}) B=(bij),那么矩阵 A A A与矩阵 B B B的和记作 A + B A+B A+B,规定为
A + B = [ a 11 + b 11 a 12 + b 12 ⋯ a 1 n + b 1 n a 21 + b 21 a 22 + b 22 ⋯ a 2 n + b 2 n ⋮ ⋮ ⋱ ⋮ a m 1 + b m 1 a m 2 + b m 2 ⋯ a m n + b m n ] A+B = \begin{bmatrix} a_{11}+b_{11} &a_{12}+b_{12} &\cdots & a_{1n}+b_{1n}\\ a_{21}+b_{21}&a_{22}+b_{22} &\cdots &a_{2n}+b_{2n} \\ \vdots& \vdots & \ddots & \vdots\\ a_{m1}+b_{m1}&a_{m2}+b_{m2} &\cdots &a_{mn}+b_{mn} \end{bmatrix} A+B=⎣⎢⎢⎢⎡a11+b11a21+b21⋮am1+bm1a12+b12a22+b22⋮am2+bm2⋯⋯⋱⋯a1n+b1na2n+b2n⋮amn+bmn⎦⎥⎥⎥⎤
设 A , B , C A,B,C A,B,C都是 m × n m \times n m×n的矩阵,满足加法运算律
( A + B ) = ( B + A ) (A+B) = (B+A) (A+B)=(B+A)
( A + B ) + C = A + ( B + C ) (A+B)+C = A + (B+C) (A+B)+C=A+(B+C)
注意:只有当两个矩阵是同型矩阵时,这两个矩阵才可以进行加法运算
定义3,数
λ
\lambda
λ与矩阵
A
A
A的乘积记作
λ
A
\lambda A
λA或者
A
λ
A \lambda
Aλ,规定为
λ
A
=
A
λ
=
[
λ
a
11
λ
a
12
⋯
λ
a
1
n
λ
a
21
λ
a
22
⋯
λ
a
2
n
⋮
⋮
⋱
⋮
λ
a
m
1
λ
a
m
2
⋯
λ
a
m
n
]
\lambda A =A \lambda = \begin{bmatrix} \lambda a_{11}&\lambda a_{12} &\cdots &\lambda a_{1n} \\ \lambda a_{21}&\lambda a_{22} &\cdots & \lambda a_{2n}\\ \vdots& \vdots & \ddots &\vdots \\ \lambda a_{m1}&\lambda a_{m2} &\cdots &\lambda a_{mn} \end{bmatrix}
λA=Aλ=⎣⎢⎢⎢⎡λa11λa21⋮λam1λa12λa22⋮λam2⋯⋯⋱⋯λa1nλa2n⋮λamn⎦⎥⎥⎥⎤
设
λ
,
μ
∈
R
\lambda ,\mu \in R
λ,μ∈R,
A
A
A为
m
×
n
m \times n
m×n矩阵,
满足以下规律
(i) ( λ μ ) A = λ ( μ ) A (\lambda \mu) A = \lambda(\mu)A (λμ)A=λ(μ)A
(ii) ( λ + μ ) A = λ A + μ A (\lambda + \mu)A = \lambda A + \mu A (λ+μ)A=λA+μA
(iii) λ ( A + B ) = λ A + λ B \lambda (A+B) = \lambda A + \lambda B λ(A+B)=λA+λB
3.矩阵的乘法
定义4 设
A
=
(
a
i
j
)
A = \left( a_{ij}\right)
A=(aij)是一个
m
×
s
m \times s
m×s矩阵,
B
=
(
b
i
j
)
B = \left(b_{ij}\right)
B=(bij)是一个
s
×
n
s\times n
s×n的矩阵,那么规定矩阵
A
A
A与矩阵
B
B
B的乘积是一个
m
×
n
m \times n
m×n矩阵
C
=
(
c
i
j
)
C = \left(c_{ij}\right)
C=(cij),
其中
c
i
j
=
a
i
1
b
1
j
+
a
i
2
b
2
j
+
⋯
+
a
i
s
b
s
j
=
∑
k
=
1
s
a
i
k
b
s
k
c_{ij} = a_{i1}b_{1j} + a_{i2}b_{2j}+ \cdots+a_{is}b_{sj} = \sum_{k=1}^{s}a_{ik}b_{sk}
cij=ai1b1j+ai2b2j+⋯+aisbsj=∑k=1saikbsk
(
i
=
1
,
2
,
⋯
m
;
j
=
1
,
2
⋯
n
)
(i = 1,2,\cdots m; j = 1,2 \cdots n)
(i=1,2,⋯m;j=1,2⋯n),
并把这次成绩记作 C = A × B C=A \times B C=A×B
设有矩阵 A , B , C A,B,C A,B,C,则满足规律
(i) ( A B ) C = A ( B C ) (AB)C = A(BC) (AB)C=A(BC)
(ii) λ ( A B ) = ( λ A ) B = A ( λ B ) \lambda (AB) = (\lambda A)B = A(\lambda B) λ(AB)=(λA)B=A(λB)
(iii) A ( B + C ) = A B + A C , ( B + C ) A = B C + C A A(B+C) = AB+AC,(B+C)A = BC+CA A(B+C)=AB+AC,(B+C)A=BC+CA
二、矩阵运算在深度学习中的应用(初级)
1.数字图像识别
输入一张为数字(0-9)的图片,大小为 10 × 10 10 \times 10 10×10,下面图片也可以体现出矩阵是一种特征空间的变换
单样本:
(
x
1
,
x
2
,
⋯
,
x
100
)
w
1
=
(
y
1
,
y
2
,
⋯
,
y
512
)
(x_{1},x_{2},\cdots,x_{100})w_{1} = (y_{1},y_{2},\cdots,y_{512})
(x1,x2,⋯,x100)w1=(y1,y2,⋯,y512)
(
z
1
,
z
2
,
⋯
,
z
512
)
w
2
=
(
O
1
,
O
2
,
⋯
,
O
10
)
(z_{1},z_{2},\cdots,z_{512})w_{2} = (O_{1},O_{2},\cdots,O_{10})
(z1,z2,⋯,z512)w2=(O1,O2,⋯,O10)
关于 r e l u relu relu函数如下:
r e l u ( x ) = { x x > 0 0 x ⩽ 0 relu(x) = \left\{\begin{matrix} x & x>0\\ 0& x\leqslant 0 \end{matrix}\right. relu(x)={x0x>0x⩽0
n
n
n个样本:
[
x
11
x
12
⋯
x
1
,
100
⋮
⋮
⋮
x
n
1
x
n
2
⋯
x
n
,
100
]
w
1
=
[
y
11
y
12
⋯
y
1
,
512
⋮
⋮
⋮
y
n
1
y
n
2
⋯
y
n
,
512
]
\begin{bmatrix} x_{11}&x_{12}&\cdots&x_{1,100}\\ \vdots&\vdots&&\vdots\\ \\ x_{n1}&x_{n2}&\cdots&x_{n,100} \end{bmatrix}w_{1} = \begin{bmatrix} y_{11}&y_{12}&\cdots&y_{1,512}\\ \vdots&\vdots&&\vdots\\ \\ y_{n1}&y_{n2}&\cdots&y_{n,512} \end{bmatrix}
⎣⎢⎢⎢⎡x11⋮xn1x12⋮xn2⋯⋯x1,100⋮xn,100⎦⎥⎥⎥⎤w1=⎣⎢⎢⎢⎡y11⋮yn1y12⋮yn2⋯⋯y1,512⋮yn,512⎦⎥⎥⎥⎤
[ z 11 z 12 ⋯ x 1 , 512 ⋮ ⋮ ⋮ z n 1 z n 2 ⋯ z n , 512 ] w 2 = [ O 11 O 12 ⋯ O 1 , 10 ⋮ ⋮ ⋮ O n 1 O n 2 ⋯ O n , 10 ] \begin{bmatrix} z_{11}&z_{12}&\cdots&x_{1,512}\\ \vdots&\vdots&&\vdots\\ \\ z_{n1}&z_{n2}&\cdots&z_{n,512} \end{bmatrix}w_{2} = \begin{bmatrix} O_{11}&O_{12}&\cdots&O_{1,10}\\ \vdots&\vdots&&\vdots\\ \\ O_{n1}&O_{n2}&\cdots&O_{n,10} \end{bmatrix} ⎣⎢⎢⎢⎡z11⋮zn1z12⋮zn2⋯⋯x1,512⋮zn,512⎦⎥⎥⎥⎤w2=⎣⎢⎢⎢⎡O11⋮On1O12⋮On2⋯⋯O1,10⋮On,10⎦⎥⎥⎥⎤
2.矩阵的迹,矩阵的转置,对称矩阵(协方差矩阵)
1.矩阵的迹
定义: 在线性代数中,一个
n
×
n
n\times n
n×n的矩阵
A
A
A的主对角线(从左上方至右下方的对角线)上各个元素的总和被称为矩阵
A
A
A的迹(或迹数),一般记作
t
r
(
A
)
tr(A)
tr(A)
t
r
(
A
)
=
∑
i
=
1
n
a
i
i
tr(A) = \sum_{i=1}^{n}a_{ii}
tr(A)=i=1∑naii
结论 $\$ t r ( A B ) = T R ( A B ) tr(AB) = TR(AB) tr(AB)=TR(AB)对于满足矩阵乘法条件(型号匹配的)任意 A m × n A_{m \times n} Am×n、 B n × m B_{n \times m} Bn×m均成立。
证明
设 C = ( A B ) m × m C = (AB)_{m \times m} C=(AB)m×m , D = ( B A ) n × n D = (BA)_{n \times n} D=(BA)n×n
所以,
t
r
(
A
B
)
=
∑
i
=
1
m
c
i
i
=
∑
i
=
1
m
∑
s
=
1
n
a
i
s
b
s
i
tr(AB)=\sum_{i=1}^{m}c_{ii}=\sum_{i=1}^{m}\sum_{s=1}^{n}a_{is}b_{si}
tr(AB)=∑i=1mcii=∑i=1m∑s=1naisbsi
同时,
t
r
(
B
A
)
=
∑
i
=
1
n
d
i
i
=
∑
s
=
1
n
∑
i
=
1
m
b
s
i
a
i
s
tr(BA)=\sum_{i=1}^{n}d_{ii} = \sum_{s=1}^{n}\sum_{i=1}^{m}b_{si}a_{is}
tr(BA)=∑i=1ndii=∑s=1n∑i=1mbsiais
又因为求和可交换,则最后可得
t
r
(
A
B
)
=
t
r
(
B
A
)
tr(AB)=tr(BA)
tr(AB)=tr(BA)
2.矩阵的转置
定义: 把矩阵 A A A的行换成同序数的列得到的一个新矩阵,叫做矩阵的转置,记作 A T . A^{T}. AT.
性质:(i)
(
A
T
)
T
=
A
(A^{T})^{T} = A
(AT)T=A
(ii)
(
A
+
B
)
T
=
A
T
+
B
T
(A+B)^{T}=A^{T}+B^{T}
(A+B)T=AT+BT
(iii)
(
λ
A
)
T
=
λ
A
T
(\lambda A)^{T}=\lambda A^{T}
(λA)T=λAT
(
A
B
)
T
=
B
T
A
T
(AB)^{T}=B^{T}A^{T}
(AB)T=BTAT
3.对称矩阵
定义: 设 A A A为n阶方阵,如果满足 A T = A A^{T}=A AT=A,即 a i j = a j i , ( i , j = 1 , 2 , ⋯ , n ) a_{ij}=a_{ji},(i,j=1,2,\cdots,n) aij=aji,(i,j=1,2,⋯,n)那么称 A A A为对称矩阵.
4.协方差矩阵
N N N个样本,每个样本的特征的维度为 n n n,容易证明协方差矩阵是对称矩阵
设 X = ( x 1 T ⋮ x N T ) N × n X=\begin{pmatrix} x_{1}^{T}\\ \vdots\\ x_{N}^{T} \end{pmatrix}_{N\times n} X=⎝⎜⎛x1T⋮xNT⎠⎟⎞N×n, X T = ( x 1 , x 2 , ⋯ , x N ) n × N X^{T}=\begin{pmatrix} x_{1},x_{2},\cdots,x_{N} \end{pmatrix}_{n\times N} XT=(x1,x2,⋯,xN)n×N
X T X X^{T}X XTX为样本的协方差矩阵。
3.行列式的引入
定义: 关于行列式的引入可从解方程的角度去看,例如二阶行列式,采用消元法解二元线性方程组,具体此处省略.
∣
a
b
c
d
∣
=
a
d
−
b
c
\begin{vmatrix} a&b\\ c&d \end{vmatrix} =ad-bc
∣∣∣∣acbd∣∣∣∣=ad−bc为二阶行列式
1.特殊矩阵的行列式
∣
λ
11
λ
22
⋱
λ
n
∣
=
λ
1
λ
2
⋯
λ
n
\begin{vmatrix} \lambda_{11}\\ &\lambda_{22}\\ & &\ddots\\ & & &\lambda_{n} \end{vmatrix}=\lambda_{1}\lambda_{2} \cdots \lambda_{n}
∣∣∣∣∣∣∣∣λ11λ22⋱λn∣∣∣∣∣∣∣∣=λ1λ2⋯λn
∣
λ
1
λ
2
⋯
λ
n
∣
=
(
−
1
)
n
(
n
−
1
)
2
λ
1
λ
2
⋯
λ
n
\qquad \quad\begin{vmatrix} & & & \lambda_{1}\\ & &\lambda_{2}\\ & \cdots \\ \lambda_{n} \end{vmatrix}=(-1)^{\frac{n(n-1)}{2}}\lambda_{1}\lambda_{2}\cdots\lambda_{n}
∣∣∣∣∣∣∣∣λn⋯λ2λ1∣∣∣∣∣∣∣∣=(−1)2n(n−1)λ1λ2⋯λn
D = ∣ a 11 ⋯ ⋯ 0 a 21 a 22 ⋮ ⋮ ⋱ a n 1 a n 2 ⋯ a n n ∣ = a 11 a 22 ⋯ a n n D=\begin{vmatrix} a_{11}& \cdots& \cdots&0 \\ a_{21}&a_{22}& & \\ \vdots&\vdots &\ddots &\\ a_{n1}&a_{n2}&\cdots&a_{nn} \end{vmatrix}=a_{11}a_{22}\cdots a_{nn} D=∣∣∣∣∣∣∣∣∣a11a21⋮an1⋯a22⋮an2⋯⋱⋯0ann∣∣∣∣∣∣∣∣∣=a11a22⋯ann
2.行列式的性质
(1) 行列式与它的转置行列式相等
(2)互换行列式的两行(列),行列式变号。
推论: 如果行列式有两行(行列)完全相同,则次行列式为零。
(3)行列式的某一行(列)中所有元素都乘以同一数 k k k,等于用 k k k乘以此行列式.
(4) 行列式中如果两行(列)的元素成比例,则此行列式等于零。
(5) 把行列式的某一行(列)的各元素乘以同一数然后加到另一行(列)的元素上去,h行列式不变。
(6) ∣ a 11 ⋯ a 1 k ⋮ ⋮ a k 1 ⋯ a k k c 11 ⋯ c 1 k b 11 ⋯ a 1 n ⋮ ⋮ ⋮ ⋮ c n 1 ⋯ c n k b n 1 ⋯ b n n ∣ \begin{vmatrix} a_{11}&\cdots&a_{1k}& & \\ \vdots& &\vdots& & \\ a_{k1}&\cdots&a_{kk} & \\ c_{11}&\cdots&c_{1k}& b_{11}&\cdots&a_{1n}\\ \vdots& & \vdots& \vdots& & \vdots& \\ c_{n1}& \cdots&c_{nk}& b_{n1}&\cdots&b_{nn} \end{vmatrix} ∣∣∣∣∣∣∣∣∣∣∣∣∣∣a11⋮ak1c11⋮cn1⋯⋯⋯⋯a1k⋮akkc1k⋮cnkb11⋮bn1⋯⋯a1n⋮bnn∣∣∣∣∣∣∣∣∣∣∣∣∣∣
D
1
=
d
e
t
(
a
i
j
)
=
∣
a
11
⋯
a
1
k
⋮
⋮
a
k
1
⋯
a
k
k
∣
D
2
=
∣
b
11
⋯
b
1
k
⋮
⋮
b
n
1
⋯
b
n
n
∣
D_{1}=det(a_{ij})=\begin{vmatrix} a_{11}& \cdots&a_{1k}\\ \vdots& &\vdots \\ a_{k1}& \cdots&a_{kk} \end{vmatrix} \qquad D_{2}=\begin{vmatrix} b_{11}& \cdots&b_{1k}\\ \vdots& &\vdots \\ b_{n1}& \cdots&b_{nn} \end{vmatrix}
D1=det(aij)=∣∣∣∣∣∣∣a11⋮ak1⋯⋯a1k⋮akk∣∣∣∣∣∣∣D2=∣∣∣∣∣∣∣b11⋮bn1⋯⋯b1k⋮bnn∣∣∣∣∣∣∣
\qquad
那么
D
=
D
1
D
2
D=D_{1}D_{2}
D=D1D2
(7) ∣ A B ∣ = ∣ A ∣ ∣ B ∣ \begin{vmatrix} AB \end{vmatrix}=\begin{vmatrix} A \end{vmatrix}\begin{vmatrix} B \end{vmatrix} ∣∣AB∣∣=∣∣A∣∣∣∣B∣∣
3.行列式按行(列)展开,代数余子式
降阶处理,用低阶的行列式来算高阶的行列式
在
n
n
n阶行列式,把
(
i
,
j
)
(i,j)
(i,j)元
a
i
j
a_{ij}
aij的第
i
i
i行和第
j
j
j列划去以后,留下来的
n
−
1
n-1
n−1阶行列式叫做
(
i
,
j
)
(i,j)
(i,j)元
a
i
j
a_{ij}
aij余子式,记作
M
i
j
M_{ij}
Mij,记
A
i
j
=
(
−
1
)
i
+
j
M
i
j
A_{ij}=(-1)^{i+j}M_{ij}
Aij=(−1)i+jMij
A i j A_{ij} Aij叫做 a i j a_{ij} aij的代数余子式
引理: 一个 n n n阶行列式,如果其中第 i i i行所有元素除 a i j a_{ij} aij外都等于0,那么行列式等于 a i j a_{ij} aij与它的代数余子式的乘积,即 D = a i j A i j D=a_{ij}A_{ij} D=aijAij
定理: 行列式等于它的任一行(列)的各元素与其对应的代数余子式乘积之和。
推论: 行列式某一行(列)的元素与另一行(列)对应元素得代数余子式乘积之和等于0。
4.行列式的应用:克莱姆法则( C r a m e r ′ s r u l e Cramer's\quad rule Cramer′srule)
{
a
11
x
1
+
a
12
x
2
+
⋯
+
a
1
n
x
n
=
b
1
a
21
x
1
+
a
22
x
2
+
⋯
+
a
2
n
x
n
=
b
2
⋯
⋯
⋯
a
n
1
x
1
+
a
n
2
x
2
+
⋯
+
a
n
n
x
n
=
b
n
\left\{\begin{matrix} a_{11}x_{1}+a_{12}x_{2}+\cdots+a_{1n}x_{n}=b_{1}\\ a_{21}x_{1}+a_{22}x_{2}+\cdots+a_{2n}x_{n}=b_{2}\\ \cdots \cdots \cdots\\ a_{n1}x_{1}+a_{n2}x_{2}+\cdots+a_{nn}x_{n}=b_{n} \end{matrix}\right.
⎩⎪⎪⎨⎪⎪⎧a11x1+a12x2+⋯+a1nxn=b1a21x1+a22x2+⋯+a2nxn=b2⋯⋯⋯an1x1+an2x2+⋯+annxn=bn
如果方程的系数行列式不等于0,即$\$
D
=
∣
a
11
⋯
a
1
n
⋮
⋮
a
n
1
⋯
a
n
n
∣
≠
0
D=\begin{vmatrix} a_{11}&\cdots&a_{1n} \\ \vdots& &\vdots\\ a_{n1}& \cdots&a_{nn} \end{vmatrix}\neq 0
D=∣∣∣∣∣∣∣a11⋮an1⋯⋯a1n⋮ann∣∣∣∣∣∣∣=0
那么方程有唯一解
x
1
=
D
1
D
x
2
=
D
2
D
,
⋯
x
n
=
D
n
D
x_{1}=\frac{D_{1}}{D}\quad x_{2}=\frac{D_{2}}{D},\cdots x_{n}=\frac{D_{n}}{D}
x1=DD1x2=DD2,⋯xn=DDn
其中 D j ( j = 1 , 2 , ⋯ n ) D_{j}(j=1,2,\cdots n) Dj(j=1,2,⋯n) 是把系数行列式中 D D D中第 j j j列的元素用方程组右端的常数项代替后得到的 n n n阶行列式,即
D j = ∣ a 11 ⋯ a i , j − 1 b 1 a i , j + 1 ⋯ a 1 n ⋮ ⋮ ⋮ ⋮ ⋮ a n 1 ⋯ a n , j − 1 b n a n , j + 1 ⋯ a n n ∣ \\ D_{j}=\begin{vmatrix} a_{11}&\cdots&a_{i,j-1}&b_{1}&a_{i,j+1}&\cdots&a_{1n} \\ \vdots& & \vdots& \vdots& \vdots& &\vdots \\ a_{n1}& \cdots& a_{n,j-1}&b_{n}& a_{n,j+1}&\cdots &a_{nn} \end{vmatrix} Dj=∣∣∣∣∣∣∣a11⋮an1⋯⋯ai,j−1⋮an,j−1b1⋮bnai,j+1⋮an,j+1⋯⋯a1n⋮ann∣∣∣∣∣∣∣
如果上式方程无解或者有两个不同的解,那
D
D
D一定为0.
若上式方程的
b
j
b_{j}
bj都为零,那么就由非齐次方程组转化为齐次方程组,即
{
a
11
x
1
+
a
12
x
2
+
⋯
+
a
1
n
x
n
=
0
a
21
x
1
+
a
22
x
2
+
⋯
+
a
2
n
x
n
=
0
⋯
⋯
⋯
a
n
1
x
1
+
a
n
2
x
2
+
⋯
+
a
n
n
x
n
=
0
\left\{\begin{matrix} a_{11}x_{1}+a_{12}x_{2}+\cdots+a_{1n}x_{n}=0\\ a_{21}x_{1}+a_{22}x_{2}+\cdots+a_{2n}x_{n}=0\\ \cdots \cdots \cdots\\ a_{n1}x_{1}+a_{n2}x_{2}+\cdots+a_{nn}x_{n}=0 \end{matrix}\right.
⎩⎪⎪⎨⎪⎪⎧a11x1+a12x2+⋯+a1nxn=0a21x1+a22x2+⋯+a2nxn=0⋯⋯⋯an1x1+an2x2+⋯+annxn=0
如果该方程的系数行列式 D D D不为0,则方程只有0解,无非零解。如果该方程有非零解,则 D D D一定为0.
4.矩阵逆的引入
定义: 对于 n n n阶矩阵 A A A,如果有一个 n n n阶矩阵 B B B,使得 A B = B A = E AB=BA=E AB=BA=E,则说明矩阵 A A A是可逆的,并把矩阵 B B B称为矩阵 A A A的逆矩阵, A A A的逆矩阵记作 A − 1 A^{-1} A−1即 B = A − 1 B=A^{-1} B=A−1
定理1 若 A ≠ 0 A \neq 0 A=0矩阵 A A A可逆,则 ∣ A ∣ ≠ 0 \begin{vmatrix} A \end{vmatrix}\neq 0 ∣∣A∣∣=0
证明:
∣
A
−
1
∣
A
可
逆
,
则
有
A
−
1
,
使
得
A
A
−
1
=
E
\begin{vmatrix} A^{-1} \end{vmatrix}A可逆,则有A^{-1},使得AA^{-1}=E
∣∣A−1∣∣A可逆,则有A−1,使得AA−1=E,所以有
∣
A
∣
∣
A
−
1
∣
=
1
\begin{vmatrix} A \end{vmatrix}\begin{vmatrix} A^{-1} \end{vmatrix}=1
∣∣A∣∣∣∣A−1∣∣=1A
那么,
∣
A
∣
≠
0
\begin{vmatrix} A \end{vmatrix}\neq 0
∣∣A∣∣=0
定理2 若 ∣ A ∣ ≠ 0 \begin{vmatrix} A \end{vmatrix}\neq 0 ∣∣A∣∣=0,则矩阵 A A A可逆,且 A − 1 = 1 ∣ A ∣ A ∗ A^{-1}=\frac{1}{\begin{vmatrix} A \end{vmatrix}}A^{*} A−1=∣A∣1A∗,其中 A ∗ A^{*} A∗为矩阵 A A A的伴随矩阵.
A ∗ = ( A 11 A 21 ⋯ A n 1 A 12 A 22 ⋯ A n 2 ⋮ ⋮ ⋮ A 1 n A 2 n ⋯ A n n ) A^{*}=\begin{pmatrix} A_{11}& A_{21} &\cdots &A_{n1} \\ A_{12}& A_{22} &\cdots &A_{n2} \\ \vdots& \vdots & &\vdots \\ A_{1n}&A_{2n} &\cdots &A_{nn} \end{pmatrix} A∗=⎝⎜⎜⎜⎛A11A12⋮A1nA21A22⋮A2n⋯⋯⋯An1An2⋮Ann⎠⎟⎟⎟⎞
4.1 矩阵的逆的常用性质以及特殊矩阵的逆
性质
(i) 若 A A A可逆,则 A − 1 A^{-1} A−1也可逆,且 ( A − 1 ) − 1 = A (A^{-1})^{-1}=A (A−1)−1=A
(ii)若 A A A可逆,数 λ ≠ 0 \lambda \neq 0 λ=0,则 λ A \lambda A λA可逆, ( λ A ) − 1 = 1 λ A − 1 (\lambda A)^{-1}=\frac{1}{\lambda}A^{-1} (λA)−1=λ1A−1
(iii) 若 A , B A,B A,B为同阶方阵且均可逆,则 ∣ A B ∣ = ∣ A ∣ ∣ B ∣ ≠ 0 \begin{vmatrix} AB \end{vmatrix}=\begin{vmatrix} A \end{vmatrix}\begin{vmatrix} B \end{vmatrix}\neq 0 ∣∣AB∣∣=∣∣A∣∣∣∣B∣∣=0,则 A B AB AB可逆;且 ( A B ) − 1 = B − 1 A − 1 (AB)^{-1}=B^{-1}A^{-1} (AB)−1=B−1A−1
(iiii) 若 A A A是可逆的,则 A T A^{T} AT也可逆,且 ( A T ) − 1 = ( A − 1 ) − T (A^{T})^{-1}=(A^{-1})^{-T} (AT)−1=(A−1)−T
说明: ∣ A T ∣ = ∣ A ∣ ≠ 0 \begin{vmatrix} A^{T} \end{vmatrix}=\begin{vmatrix} A \end{vmatrix}\neq 0 ∣∣AT∣∣=∣∣A∣∣=0,则 A T A^{T} AT可逆,因为 A T ( A − 1 ) T = ( A − 1 A ) T = E A^{T}(A^{-1})^{T}=(A^{-1}A)^{T}=E AT(A−1)T=(A−1A)T=E
4.2 特殊矩阵的逆
求二阶矩阵 A = ( a b c d ) A=\begin{pmatrix} a&b&\\ c&d& \end{pmatrix} A=(acbd)的逆矩阵。
解:
∣
A
∣
=
a
d
−
b
c
,
A
∗
=
(
d
−
b
−
c
a
)
\begin{vmatrix} A \end{vmatrix}=ad-bc,\qquad A^{*}= \begin{pmatrix} d&-b&\\ -c&a& \end{pmatrix}
∣∣A∣∣=ad−bc,A∗=(d−c−ba)
A
利用逆矩阵公式
A
−
1
=
1
∣
A
∣
A
∗
A^{-1}=\frac{1}{\begin{vmatrix} A \end{vmatrix}}A^{*}
A−1=∣A∣1A∗,当
d
e
t
(
A
)
≠
0
det(A)\neq0
det(A)=0时,有
A
A
−
1
=
1
∣
A
∣
A
∗
=
1
a
d
−
b
c
(
d
−
b
−
c
a
)
A^{-1}=\frac{1}{\begin{vmatrix} A \end{vmatrix}}A^{*}=\frac{1}{ad-bc}\begin{pmatrix} d&-b&\\ -c&a& \end{pmatrix}
A−1=∣∣A∣∣1A∗=ad−bc1(d−c−ba)
单位矩阵的逆矩阵为单位矩阵
对角矩阵的逆矩阵
A = ( λ 1 ⋱ λ n ) , ∴ A − 1 = ( λ 1 − 1 ⋱ λ n − 1 ) A=\begin{pmatrix} \lambda_{1} & &\\ &\ddots&\\ & &\lambda_{n} \end{pmatrix},\qquad \therefore A^{-1}=\begin{pmatrix} \lambda_{1}^{-1} & &\\ &\ddots&\\ & &\lambda_{n}^{-1} \end{pmatrix} A=⎝⎛λ1⋱λn⎠⎞,∴A−1=⎝⎛λ1−1⋱λn−1⎠⎞
4.3 矩阵逆在机器学习线性回归算法中的运用(初级)
4.3.1 多元线性回归问题
x
1
,
x
2
,
⋯
,
x
N
,
x
i
∈
R
n
y
1
,
x
2
,
⋯
,
y
N
,
y
i
∈
R
1
x_{1},x_{2},\cdots,x_{N},x_{i}\in \mathbb{R}^{n} \\ y_{1},x_{2},\cdots,y_{N},y_{i}\in \mathbb{R}^{1}
x1,x2,⋯,xN,xi∈Rny1,x2,⋯,yN,yi∈R1
其中
x
i
x_{i}
xi表示一个样本,其是一个
n
n
n维向量,
y
i
y_{i}
yi是一个输出标量
在回归问题中,我们有
y 1 = x 11 a 1 + x 12 a 2 + ⋯ + x 1 n a n y 1 = x 21 a 1 + x 22 a 2 + ⋯ + x 2 n a n ⋮ y N = x N 1 a 1 + x N 2 a 2 + ⋯ + x N n a n y_{1}=x_{11}a_{1}+x_{12}a_{2}+\cdots+x_{1n}a_{n} \\ y_{1}=x_{21}a_{1}+x_{22}a_{2}+\cdots+x_{2n}a_{n} \\ \vdots\\ y_{N}=x_{N1}a_{1}+x_{N2}a_{2}+\cdots+x_{Nn}a_{n} y1=x11a1+x12a2+⋯+x1nany1=x21a1+x22a2+⋯+x2nan⋮yN=xN1a1+xN2a2+⋯+xNnan
写成矩阵的形式
( x 11 x 12 ⋯ x 1 n x 21 x 22 ⋯ x 2 n ⋮ ⋮ ⋱ ⋮ x N 1 x N 2 ⋯ x N n ) ( a 1 a 2 ⋮ a n ) = ( y 1 y 1 ⋮ y N ) \begin{pmatrix} x_{11}&x_{12} &\cdots &x_{1n}\\ x_{21}& x_{22}&\cdots &x_{2n}\\ \vdots& \vdots& \ddots&\vdots\\ x_{N1}&x_{N2} &\cdots &x_{Nn} \end{pmatrix}\begin{pmatrix} a_{1}\\a_{2}\\\vdots\\a_{n} \end{pmatrix}=\begin{pmatrix} y_{1}\\ y_{1}\\\vdots \\y_{N} \end{pmatrix} ⎝⎜⎜⎜⎛x11x21⋮xN1x12x22⋮xN2⋯⋯⋱⋯x1nx2n⋮xNn⎠⎟⎟⎟⎞⎝⎜⎜⎜⎛a1a2⋮an⎠⎟⎟⎟⎞=⎝⎜⎜⎜⎛y1y1⋮yN⎠⎟⎟⎟⎞
X
N
×
n
a
n
×
1
=
Y
N
×
1
X_{N\times n}a_{n\times1}=Y_{N\times1}
XN×nan×1=YN×1
当
N
=
n
N=n
N=n且
X
N
×
n
X_{N\times n}
XN×n可逆时,
a
=
X
−
1
Y
a=X^{-1}Y
a=X−1Y
一般情况,
N
≠
n
N\neq n
N=n.
5. 分块矩阵
分块矩阵的运算规则与普通矩阵的运算规则相似,分别说明如下:
(i) 设矩阵 A A A与 B B B的行数、列数相同,采用相同的分块法,有
A = ( A 11 ⋯ A i r ⋮ ⋮ A n 1 ⋯ A n r ) , B = ( B 11 ⋯ B i r ⋮ ⋮ B n 1 ⋯ B n r ) A=\begin{pmatrix} A_{11} &\cdots&A_{ir}\\ \vdots& &\vdots\\ A_{n1}& \cdots&A_{nr}\\ \end{pmatrix},\qquad B=\begin{pmatrix} B_{11} &\cdots&B_{ir}\\ \vdots& &\vdots\\ B_{n1}& \cdots&B_{nr}\\ \end{pmatrix} A=⎝⎜⎛A11⋮An1⋯⋯Air⋮Anr⎠⎟⎞,B=⎝⎜⎛B11⋮Bn1⋯⋯Bir⋮Bnr⎠⎟⎞
其中 A i j A_{ij} Aij与 B i j B_{ij} Bij行数,列数相同,那么
A + B = ( A 11 + B 11 ⋯ A i r + B i r ⋮ ⋮ A n 1 + B n 1 ⋯ A n r + B n r ) A+B=\begin{pmatrix} A_{11}+B_{11} &\cdots&A_{ir}+B_{ir}\\ \vdots& &\vdots\\ A_{n1}+B_{n1}& \cdots&A_{nr}+B_{nr}\\ \end{pmatrix} A+B=⎝⎜⎛A11+B11⋮An1+Bn1⋯⋯Air+Bir⋮Anr+Bnr⎠⎟⎞
(ii) 设 A = ( A 11 ⋯ A 1 r ⋮ ⋮ A s 1 ⋯ A s r ) A=\begin{pmatrix} A_{11}&\cdots &A_{1r}\\ \vdots& &\vdots \\ A_{s1}&\cdots &A_{sr} \end{pmatrix} A=⎝⎜⎛A11⋮As1⋯⋯A1r⋮Asr⎠⎟⎞, λ \qquad \lambda λ为一个实数,那么 λ A = ( λ A 11 ⋯ λ A 1 r ⋮ ⋮ λ A s 1 ⋯ λ A s r ) \lambda A=\begin{pmatrix} \lambda A_{11}&\cdots &\lambda A_{1r}\\ \vdots& &\vdots \\ \lambda A_{s1}&\cdots &\lambda A_{sr} \end{pmatrix} λA=⎝⎜⎛λA11⋮λAs1⋯⋯λA1r⋮λAsr⎠⎟⎞
(iii) 设
A
A
A为
m
×
l
m\times l
m×l,
B
B
B为
l
×
n
l\times n
l×n,分块成
A
=
(
A
11
⋯
A
1
t
⋮
⋮
A
s
1
⋯
A
s
t
)
,
B
=
(
B
11
⋯
B
1
r
⋮
⋮
B
t
1
⋯
B
t
r
)
A=\begin{pmatrix} A_{11}&\cdots &A_{1t}\\ \vdots& & \vdots\\ A_{s1}&\cdots &A_{st}\\ \end{pmatrix},\qquad B=\begin{pmatrix} B_{11}& \cdots&B_{1r}\\ \vdots& &\vdots\\ B_{t1}&\cdots &B_{tr} \end{pmatrix}
A=⎝⎜⎛A11⋮As1⋯⋯A1t⋮Ast⎠⎟⎞,B=⎝⎜⎛B11⋮Bt1⋯⋯B1r⋮Btr⎠⎟⎞
其中 A i 1 , A i 2 , ⋯ , A i t A_{i1},A_{i2},\cdots,A_{it} Ai1,Ai2,⋯,Ait的列数分别等于 B 1 j , B 2 j , ⋯ , B t j B_{1j},B_{2j},\cdots,B_{tj} B1j,B2j,⋯,Btj的行数,那么有
A B ( C 11 ⋯ C 1 r ⋮ ⋮ C s 1 ⋯ C s r ) AB\begin{pmatrix} C_{11}&\cdots &C_{1r}\\ \vdots& &\vdots\\ C_{s1}&\cdots &C_{sr} \end{pmatrix} AB⎝⎜⎛C11⋮Cs1⋯⋯C1r⋮Csr⎠⎟⎞
其中, C i j = ∑ k = 1 t A i k B k j , ( i = 1 , ⋯ , s ; j = 1 , ⋯ , r ) C_{ij}=\sum_{k=1}^{t}A_{ik}B_{kj},\qquad (i=1,\cdots,s;j=1,\cdots,r) Cij=∑k=1tAikBkj,(i=1,⋯,s;j=1,⋯,r)
(iv) 设 A = ( A 11 ⋯ A 1 r ⋮ ⋮ A s 1 ⋯ A s r ) A=\begin{pmatrix} A_{11}&\cdots &A_{1r}\\ \vdots& &\vdots\\ A_{s1}&\cdots &A_{sr} \end{pmatrix} A=⎝⎜⎛A11⋮As1⋯⋯A1r⋮Asr⎠⎟⎞,则 A T = ( A 11 T ⋯ A s 1 T ⋮ ⋮ A 1 r T ⋯ A s r T ) A^{T}=\begin{pmatrix} A_{11}^{T}&\cdots &A_{s1}^{T}\\ \vdots& &\vdots\\ A_{1r}^{T}&\cdots &A_{sr}^{T} \end{pmatrix} AT=⎝⎜⎛A11T⋮A1rT⋯⋯As1T⋮AsrT⎠⎟⎞
(v) 设 A A A为 n n n阶矩阵,若 A A A的分块矩阵只有对角线上有非零块,其余子块都为零矩阵,且对角线上的子块都是方阵,即
A = ( A 1 O A 2 ⋱ A s ) A=\begin{pmatrix} A_{1}& & &O\\ & A_{2}& &\\ & & \ddots&\\ & & &A_{s} \end{pmatrix} A=⎝⎜⎜⎛A1A2⋱OAs⎠⎟⎟⎞
其中
A
i
(
i
=
1
,
2
⋯
s
)
A_{i}(i=1,2\cdots s)
Ai(i=1,2⋯s)都是方阵,那么称
A
A
A为分块对角阵,
分块对角阵的行列式具有下述性质
∣
A
∣
=
∣
A
1
∣
∣
A
2
∣
⋯
∣
A
s
∣
\begin{vmatrix} A \end{vmatrix}=\begin{vmatrix} A_{1} \end{vmatrix}\begin{vmatrix} A_{2} \end{vmatrix}\cdots\begin{vmatrix} A_{s} \end{vmatrix}
∣∣A∣∣=∣∣A1∣∣∣∣A2∣∣⋯∣∣As∣∣
由此性质可知,若 ∣ A i ∣ ≠ 0 ( i = 1 , 2 , ⋯ s ) \begin{vmatrix} A_{i} \end{vmatrix}\neq0(i=1,2,\cdots s) ∣∣Ai∣∣=0(i=1,2,⋯s),则 ∣ A ∣ ≠ 0 \begin{vmatrix} A \end{vmatrix}\neq0 ∣∣A∣∣=0,并有
A − 1 = ( A 1 − 1 O A 2 − 1 ⋱ A s − 1 ) A^{-1}=\begin{pmatrix} A_{1}^{-1}& & &O\\ & A_{2}^{-1}& &\\ & & \ddots&\\ & & &A_{s}^{-1} \end{pmatrix} A−1=⎝⎜⎜⎛A1−1A2−1⋱OAs−1⎠⎟⎟⎞
5.1 协方差矩阵的计算
x 1 , x 2 , ⋯ x N ∈ R n x_{1},x_{2},\cdots x_{N} \in \mathbb{R}^{n} x1,x2,⋯xN∈Rn
X = ( x 1 T ⋮ x N T ) N × n , X T = ( x 1 , x 2 , ⋯ , x N ) n × N , X T X n × n X=\begin{pmatrix} x_{1}^{T}\\ \vdots\\ x_{N}^{T} \end{pmatrix}_{N \times n},\qquad X^{T}=\begin{pmatrix} x_{1},x_{2},\cdots,x_{N} \end{pmatrix}_{n\times N},\qquad X^{T}X_{n\times n} X=⎝⎜⎛x1T⋮xNT⎠⎟⎞N×n,XT=(x1,x2,⋯,xN)n×N,XTXn×n,为样本的协方差矩阵
X T X = ∑ i = 1 N x i x i T X^{T}X=\sum_{i=1}^{N}x_{i}x_{i}^{T} XTX=i=1∑NxixiT
三、矩阵初等变换的引入
1 三种矩阵的初等变化
定义: 下面的三种变换称为矩阵的初等行变换:
(i) 对调两行(对调 i , j i,j i,j两行,记作 r i ↔ r j ) r_{i}\leftrightarrow r_{j}) ri↔rj)
(ii)以数 k ≠ 0 k\neq0 k=0乘某一行的所有元素(第 i i i行乘以 k k k,记作 r i × k r_{i}\times k ri×k);
(iii)把某一行所有元素的 k k k倍加到另外一行对应的元素上去(第 j j j行的 k k k倍加到第 i i i行上,记作 r i + k × r j r_{i}+k\times r_{j} ri+k×rj)
把定义中的”行“换成”列”,即得矩阵得初等列变换得定义(记号“ r r r”换成“ c c c”)
矩阵得初等行变换与初等列变换,统称初等变换
如果矩阵 A A A经有限次初等行(列)变换变成矩阵 B B B,就称矩阵 A A A与 B B B行(列)等价,记作 A ∼ B A\sim B A∼B;
如果矩阵 A A A经有限次初等变换变成矩阵 B B B,就称矩阵 A A A与 B B B等价,记作 A ∼ B A\sim B A∼B;
矩阵之间的等价关系具有以下性质:
(i)反身性 A ∼ A A\sim A A∼A;
(ii)对称性 若 A ∼ B A\sim B A∼B,则 B ∼ A B\sim A B∼A
(iii)传递性 若 A ∼ B A\sim B A∼B, B ∼ C B\sim C B∼C,则 A ∼ C A\sim C A∼C
2.矩阵的标准型
例如
B
=
[
2
−
1
−
1
1
2
1
1
−
2
1
4
4
−
6
2
−
2
4
3
6
−
9
7
9
]
B=\begin{bmatrix} 2& -1&-1 &1 &2\\ 1& 1& -2&1 &4\\ 4& -6&2 &-2 &4\\ 3& 6& -9&7 &9 \end{bmatrix}
B=⎣⎢⎢⎡2143−11−66−1−22−911−272449⎦⎥⎥⎤
第一步,进行初等行变换,可得 阶 梯 型 矩 阵 {\color{red}阶梯型矩阵} 阶梯型矩阵, B p = [ 1 0 − 1 0 4 0 1 − 1 0 3 0 0 0 1 − 3 0 0 0 0 0 ] B_{p}=\begin{bmatrix} 1& 0& -1&0 &4\\ 0& 1& -1&0 &3\\ 0&0 &0 &1 &-3\\ 0&0 &0 &0 &0 \end{bmatrix} Bp=⎣⎢⎢⎡10000100−1−100001043−30⎦⎥⎥⎤
第二步,进行初等列变换,可得 矩 阵 B 的 标 准 型 F {\color{red}矩阵B的标准型F} 矩阵B的标准型F
F = [ 1 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 ] F=\begin{bmatrix} 1& 0& 0& 0&0\\ 0&1 &0 &0 &0\\ 0&0 &1 &0 &0\\ 0&0 &0 &0 &0 \end{bmatrix} F=⎣⎢⎢⎡10000100001000000000⎦⎥⎥⎤
其特点: F F F的左上角是一个单位矩阵。其余元素全为0.
对 于 m × n 矩 阵 A , 总 可 以 经 过 初 等 变 换 ( 行 变 换 和 列 变 换 ) , 把 它 化 为 标 准 型 {\color{red}对于m\times n矩阵A,总可以经过初等变换(行变换和列变换),把它化为标准型} 对于m×n矩阵A,总可以经过初等变换(行变换和列变换),把它化为标准型
F = [ E r O O O ] m × n F=\begin{bmatrix} E_{r}&O &\\ O&O & \end{bmatrix}_{m\times n} F=[ErOOO]m×n
3.三种初等矩阵
E ( i , j ) = [ 1 ⋱ 1 0 ⋯ 1 1 ⋮ ⋱ ⋮ 1 1 ⋯ 0 1 ⋱ 1 ] E(i,j)=\begin{bmatrix} 1& & & & & & & & & &\\ &\ddots& & & & & & & & &\\ &&1&&&&&&&&\\ &&&0&&\cdots&&1&&&\\ &&&&1&&&&&&\\ &&&\vdots&&\ddots&&\vdots&&&\\ &&&&&&1&&&&\\ &&&1&&\cdots&&0&&&\\ &&&&&&&&1&&\\ &&&&&&&&&\ddots&\\ &&&&&&&&&&1\\ \end{bmatrix} E(i,j)=⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎡1⋱10⋮11⋯⋱⋯11⋮01⋱1⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎤
矩阵 E ( i , j ) E(i,j) E(i,j)由单位矩阵互换 i , j i,j i,j行得到的。
将该矩阵作用在另外一个矩阵 A A A上(即左乘以矩阵 A A A),得到的结果相当于把 A A A矩阵的 i , j i,j i,j行交换位置
E ( i ( k ) ) = [ 1 ⋱ 1 k 1 ⋱ 1 ] E(i(k))=\begin{bmatrix} 1&&&&&&\\ &\ddots&&&&&\\ &&1&&&&\\ &&&k&&&\\ &&&&1&&\\ &&&&&\ddots&\\ &&&&&&1 \end{bmatrix} E(i(k))=⎣⎢⎢⎢⎢⎢⎢⎢⎢⎡1⋱1k1⋱1⎦⎥⎥⎥⎥⎥⎥⎥⎥⎤
矩阵 E ( i ( k ) ) E(i(k)) E(i(k))由单位矩阵的第 i i i行乘以 k k k得到。
将该矩阵作用在另外一个矩阵 A A A上(即左乘以矩阵 A A A),得到的结果相当于把 A A A矩阵的 i i i行乘以 k k k
E ( i j ( k ) ) = [ 1 ⋱ 1 ⋱ 1 ⋱ 1 ] E(ij(k))=\begin{bmatrix} 1&&&&&&\\ &\ddots&&&&&\\ &&1&&&&\\ &&&\ddots&&&\\ &&&&1&&\\ &&&&&\ddots&\\ &&&&&&1 \end{bmatrix} E(ij(k))=⎣⎢⎢⎢⎢⎢⎢⎢⎢⎡1⋱1⋱1⋱1⎦⎥⎥⎥⎥⎥⎥⎥⎥⎤
矩阵 E ( i j ( k ) ) E(ij(k)) E(ij(k))由单位矩阵的第 i i i行加上第 j j j行与 k k k的乘积。
将该矩阵作用在另外一个矩阵 A A A上(即左乘以矩阵 A A A),得到的结果相当于把 A A A矩阵的 i i i行加上第 j j j行与 k k k的乘积.
性质1 设 A A A是一个 m × n m\times n m×n矩阵,对 A A A实施一次初等行变换,相当于在 A A A的左边乘以相应的 m m m阶初等矩阵;对 A A A施行一次初等列变换。相当于在 A A A的右边乘以相应的 n n n阶初等矩阵
性质2 方阵 A A A可逆的充分必要条件是存在有限个初等矩阵 P 1 , P 2 , ⋯ , P i P_{1},P_{2},\cdots,P_{i} P1,P2,⋯,Pi,使得 A = P 1 P 2 ⋯ P i A=P_{1}P_{2}\cdots P_{i} A=P1P2⋯Pi
证明: ∵ \because ∵任意矩阵,都可以经过初等变换转为为标准型 F = [ E r O O O ] F=\begin{bmatrix} E_{r}&O\\ O&O \end{bmatrix} F=[ErOOO], E r E_{r} Er为单位矩阵
∴ \therefore ∴存在初等矩阵 Q 1 , Q 2 , ⋯ , Q j , Q j + 1 , ⋯ Q i Q_{1},Q_{2},\cdots,Q_{j},Q_{j+1},\cdots Q_{i} Q1,Q2,⋯,Qj,Qj+1,⋯Qi,使得 Q 1 Q 2 ⋯ Q j A Q i ⋯ Q j + 1 = F Q_{1}Q_{2}\cdots Q_{j}AQ_{i}\cdots Q_{j+1}=F Q1Q2⋯QjAQi⋯Qj+1=F
∵ \because ∵ 初等矩阵是可逆的
∴ \therefore ∴ A = Q j − 1 Q j − 1 − 1 ⋯ Q 1 − 1 F Q j + 1 − 1 ⋯ Q i − 1 A=Q_{j}^{-1}Q_{j-1}^{-1}\cdots Q_{1}^{-1}FQ_{j+1}^{-1}\cdots Q_{i}^{-1} A=Qj−1Qj−1−1⋯Q1−1FQj+1−1⋯Qi−1
令 P k = Q k − 1 , ( k = 1 , 2 , ⋯ i ) P_{k}=Q_{k}^{-1},(k=1,2,\cdots i) Pk=Qk−1,(k=1,2,⋯i)
∵ \because ∵, A = P j P j − 1 ⋯ P j F P j + 1 P j + 2 ⋯ P i A=P_{j}P_{j-1}\cdots P_{j}FP_{j+1}P_{j+2}\cdots P_{i} A=PjPj−1⋯PjFPj+1Pj+2⋯Pi
∵ \because ∵ ∣ A ∣ = ∣ P 1 ∣ ∣ P 2 ∣ ⋯ ∣ F ∣ ∣ P j + 1 ∣ ⋯ ∣ P i ∣ \begin{vmatrix} A \end{vmatrix}=\left | P_{1} \right |\left | P_{2} \right |\cdots \left | F \right |\left | P_{j+1} \right |\cdots \left | P_{i} \right | ∣∣A∣∣=∣P1∣∣P2∣⋯∣F∣∣Pj+1∣⋯∣Pi∣
∵ \because ∵ A A A可逆
∴ \therefore ∴ ∣ F ∣ ≠ 0 \left | F \right |\neq0 ∣F∣=0,
∵ \because ∵矩阵 F F F是标准型矩阵, ∴ \therefore ∴矩阵 F F F为单位矩阵
∴ \therefore ∴ A = P 1 P 2 ⋯ P i A=P_{1}P_{2}\cdots P_{i} A=P1P2⋯Pi
推论:方阵 A A A可逆的充分必要条件是可通过初等** 行 {\color{red}{行}} 行**变换变成单位矩阵
证明: ∵ \because ∵ A = P 1 P 2 ⋯ P i A=P_{1}P_{2}\cdots P_{i} A=P1P2⋯Pi
∴ P 1 − 1 P 2 − 1 ⋯ P i − 1 A = E \therefore\qquad P_{1}^{-1}P_{2}^{-1}\cdots P_{i}^{-1}A=E ∴P1−1P2−1⋯Pi−1A=E
∴ Q 1 Q 2 ⋯ Q i A = E \therefore\qquad Q_{1}Q_{2}\cdots Q_{i}A =E ∴Q1Q2⋯QiA=E
所以,推论成立。
定理: 设 A A A与 B B B为 m × n m\times n m×n矩阵,那么:
(i) A ∼ ( r ) B A\sim (r) B A∼(r)B的充分必要条件是存在 m m m阶可逆矩阵 P P P;使得 P A = B PA=B PA=B;
(ii) A ∼ ( c ) B A\sim (c) B A∼(c)B的充分必要条件是存在 n n n阶可逆矩阵 Q Q Q;使得 A Q = B AQ=B AQ=B;
(iii) A ∼ B A\sim B A∼B的充分必要条件使存在 m m m阶可逆矩阵 P P P以及 n n n阶可逆矩阵 Q Q Q,,使得 P A Q = B PAQ=B PAQ=B
4. 矩阵秩的定义以及性质
定义 在 m × n m\times n m×n矩阵 A A A中,任取 k k k行与 k k k列 ( k ≤ m , k ≤ n ) (k\leq m,k\leq n) (k≤m,k≤n),位于这些行列交叉处的 k 2 k^{2} k2个元素,不改变它们在 A A A中所处的位置次序而得的 k k k阶行列式,称为矩阵 A A A的 k k k阶子式。
m × n 矩 阵 A 的 k 阶 子 式 共 有 C m k ⋅ C n k 个 m\times n矩阵A的k阶子式共有C_{m}^{k}\cdot C_{n}^{k}个 m×n矩阵A的k阶子式共有Cmk⋅Cnk个
定义: 设在矩阵 A A A中有一个不等于0的 r r r阶子式子 D D D,且所有 r + 1 r+1 r+1阶子式(如果存在的话)全等于0,那么 D D D称为矩阵 A A A的最高阶非零子式,数 r r r称为矩阵 A A A的秩,记作 R ( A ) R(A) R(A),并规定零矩阵的秩等于0.
显然,若 A A A为 m × n m\times n m×n矩阵,则 0 ≤ R ( A ) ≤ m i n { m , n } 0\leq R(A)\leq min\left \{ m,n \right \} 0≤R(A)≤min{m,n}.由于行列式与其转置行列式相等,因此 A T A^{T} AT的子式与 A A A的子式对应相等,从而 R ( A T ) = R ( A ) R(A^{T})=R(A) R(AT)=R(A)。对于 n n n阶矩阵 A A A,由于 A A A的 n n n阶子式只有一个 ∣ A ∣ \left | A \right | ∣A∣,故当 ∣ A ∣ ≠ 0 \left | A \right |\neq 0 ∣A∣=0时 R ( A ) = n R(A)=n R(A)=n,当 ∣ A ∣ = 0 \left | A \right |=0 ∣A∣=0时 R ( A ) < n R(A)<n R(A)<n.可见可逆矩阵的秩等于矩阵的阶数,不可逆矩阵的秩小于矩阵的阶数,因此, 可 逆 矩 阵 又 称 满 秩 矩 阵 , 不 可 逆 矩 阵 ( 奇 异 矩 阵 ) 又 称 为 降 秩 矩 阵 {\color{red}{可逆矩阵又称满秩矩阵,不可逆矩阵(奇异矩阵)又称为降秩矩阵}} 可逆矩阵又称满秩矩阵,不可逆矩阵(奇异矩阵)又称为降秩矩阵
注: 对于一般矩阵,当行数与列数较高时,按照定义求秩很麻烦,然而对于行阶梯形矩阵,它的秩就等于非零行的行数,一看便知无须计算,因此自然想到用初等变换把矩阵化为行阶梯型矩阵,但是两个等价矩阵的秩是否相等呢?
定理: 若 A ∼ B A\sim B A∼B,则 R ( A ) = R ( B ) ∗ ∗ 推 论 : ∗ ∗ 若 存 在 R(A)=R(B) **推论:** 若存在 R(A)=R(B)∗∗推论:∗∗若存在P,Q 可 逆 矩 阵 使 得 可逆矩阵使得 可逆矩阵使得PAQ=B$,则 R ( A ) = R ( B ) R(A)=R(B) R(A)=R(B)
常用的矩阵秩的性质:(矩阵 A , B A,B A,B的行数相同)
(i) m a x { R ( A ) , R ( B ) } ≤ R ( A , B ) ≤ R ( A ) + R ( B ) max \left \{ R(A),R(B) \right \}\leq R(A,B)\leq R(A)+R(B) max{R(A),R(B)}≤R(A,B)≤R(A)+R(B)
证明: 因为 A A A的列向量可由 ( A , B ) (A,B) (A,B)列向量线性表示,所以 R ( A ) ≤ R ( A , B ) R(A)\leq R(A,B) R(A)≤R(A,B),同理, R ( B ) ≤ R ( A , B ) R(B)\leq R(A,B) R(B)≤R(A,B),所以 m a x { R ( A ) , R ( B ) } ≤ R ( A , B ) max \left \{ R(A),R(B) \right \}\leq R(A,B) max{R(A),R(B)}≤R(A,B)。
设 a 1 , a 2 , ⋯ , a r 1 a_{1},a_{2},\cdots,a_{r_{1}} a1,a2,⋯,ar1为 A A A的列向量组的极大无关组, b 1 , b 2 , ⋯ , b r 2 b_{1},b_{2},\cdots,b_{r_{2}} b1,b2,⋯,br2为 B B B的列向量组的极大无关组,则 ( A , B ) (A,B) (A,B)的列向量组可由 a 1 , a 2 , ⋯ , a r 1 , b 1 , b 2 , b r 2 a_{1},a_{2},\cdots,a_{r_{1}},b_{1},b_{2},b_{r_{2}} a1,a2,⋯,ar1,b1,b2,br2线性表示,所以 R ( A , B ) = R ( a 1 , a 2 , ⋯ , a r 1 , b 1 , b 2 , b r 2 ) ≤ R ( A ) + R ( B ) R(A,B)=R(a_{1},a_{2},\cdots,a_{r_{1}},b_{1},b_{2},b_{r_{2}})\leq R(A)+R(B) R(A,B)=R(a1,a2,⋯,ar1,b1,b2,br2)≤R(A)+R(B),所以,结论成立.
(ii) R ( A + B ) ≤ R ( A ) + R ( B ) R(A+B)\leq R(A)+R(B) R(A+B)≤R(A)+R(B)
证明: 设 a 1 , a 2 , ⋯ , a r 1 a_{1},a_{2},\cdots,a_{r_{1}} a1,a2,⋯,ar1为 A A A的列向量组的极大无关组, b 1 , b 2 , ⋯ , b r 2 b_{1},b_{2},\cdots,b_{r_{2}} b1,b2,⋯,br2为 B B B的列向量组的极大无关组,那么 ( A + B ) (A+B) (A+B)的中的每个列向量都可以用向量组 a 1 , a 2 , ⋯ , a r 1 , b 1 , b 2 , b r 2 a_{1},a_{2},\cdots,a_{r_{1}},b_{1},b_{2},b_{r_{2}} a1,a2,⋯,ar1,b1,b2,br2线性表示,所以 R ( A + B ) ≤ R ( A ) + R ( B ) R(A+B)\leq R(A)+R(B) R(A+B)≤R(A)+R(B)
(iii) R ( A B ) ≤ m i n { R ( A ) , R ( B ) } R(AB)\leq min\left \{R(A),R(B) \right \} R(AB)≤min{R(A),R(B)}
证明:因为矩阵
A
B
=
(
α
1
α
2
⋯
α
m
)
(
b
11
⋯
b
1
s
⋮
⋮
b
m
1
⋯
b
m
s
)
AB=\begin{pmatrix} \alpha_{1}& \alpha_{2}& \cdots&\alpha_{m} \end{pmatrix}\begin{pmatrix} b_{11}&\cdots &b_{1s}\\ \vdots& & \vdots\\ b_{m1}& \cdots& b_{ms}&\\ \end{pmatrix}
AB=(α1α2⋯αm)⎝⎜⎛b11⋮bm1⋯⋯b1s⋮bms⎠⎟⎞
所以可知 A B AB AB的列向量组可由 A A A的列向量组表示,则 R ( A B ) ≤ R ( A ) R(AB)\leq R(A) R(AB)≤R(A)
同理,有
A
B
=
(
a
11
⋯
a
1
m
⋮
⋮
a
n
1
⋯
a
n
m
)
(
β
1
⋮
β
m
)
AB= \begin{pmatrix} a_{11}&\cdots &a_{1m}\\ \vdots& &\vdots\\ a_{n1}&\cdots&a_{nm}\\ \end{pmatrix} \begin{pmatrix} \beta_{1}\\\vdots\\\beta_{m}\\ \end{pmatrix}
AB=⎝⎜⎛a11⋮an1⋯⋯a1m⋮anm⎠⎟⎞⎝⎜⎛β1⋮βm⎠⎟⎞
所以可知 A B AB AB的行向量组可由 B B B的行向量组表示,则 R ( A B ) ≤ R ( B ) R(AB)\leq R(B) R(AB)≤R(B)
所以, R ( A B ) ≤ m i n { R ( A ) , R ( B ) } R(AB)\leq min\left \{R(A),R(B) \right \} R(AB)≤min{R(A),R(B)}
(iv) 若 A m × n B n × i = O A_{m\times n}B_{n\times i}=O Am×nBn×i=O,则 R ( A ) + R ( B ) ≤ n R(A)+R(B)\leq n R(A)+R(B)≤n
因为
A
B
=
0
AB=0
AB=0
所以
B
B
B的列向量都是
A
X
=
0
AX=0
AX=0的解.
所以
B
B
B的列向量组可以由
A
X
=
0
AX=0
AX=0的基础解系线性表示
所以
r
(
B
)
<
=
n
−
r
(
A
)
r(B) <= n-r(A)
r(B)<=n−r(A)
所以
r
(
A
)
+
r
(
B
)
<
=
n
.
r(A)+r(B) <= n.
r(A)+r(B)<=n.
5.线性方程组解的个数
设有 n n n个未知数 m m m个方程的线性方程组
{ a 11 x 1 + a 12 x 2 + ⋯ + a 1 n x n = b 1 a 21 x 1 + a 22 x 2 + ⋯ + a 2 n x n = b 2 ⋯ ⋯ ⋯ a m 1 x 1 + a m 2 x 2 + ⋯ + a m n x n = b m (1) \left\{\begin{matrix} a_{11}x_{1}+a_{12}x_{2}+\cdots+a_{1n}x_{n}=b_{1}\\ a_{21}x_{1}+a_{22}x_{2}+\cdots+a_{2n}x_{n}=b_{2}\\ \cdots \cdots \cdots \tag{1} \\ a_{m1}x_{1}+a_{m2}x_{2}+\cdots+a_{mn}x_{n}=b_{m} \end{matrix}\right. ⎩⎪⎪⎨⎪⎪⎧a11x1+a12x2+⋯+a1nxn=b1a21x1+a22x2+⋯+a2nxn=b2⋯⋯⋯am1x1+am2x2+⋯+amnxn=bm(1)
(1)式可以写成以向量
x
x
x为未知元的向量方程
A
x
=
b
(2)
Ax=b \tag{2}
Ax=b(2)
定理: n n n元线性方程组 A X = b AX=b AX=b
(i) 无解的充分必要条件是 R ( A ) < R ( A , b ) R(A)<R(A,b) R(A)<R(A,b);
(ii) 有唯一解的充分必要条件是 R ( A ) = R ( A , b ) = n R(A)=R(A,b)=n R(A)=R(A,b)=n
(iii) 有无限多解的充分必要条件是 R ( A ) = R ( A , b ) < n R(A)=R(A,b)<n R(A)=R(A,b)<n
定理: n n n元齐次线性方程组 A x = 0 Ax=0 Ax=0有非零解的充分必要条件是 R ( A ) < n R(A)<n R(A)<n
定理: 线性方程组 A x = b Ax=b Ax=b有解的充分必要条件是 R ( A ) = R ( A , b ) R(A)=R(A,b) R(A)=R(A,b)
四、矩阵秩在机器学习线性回归算法中的应用(中级)
x 1 , x 2 , ⋯ , x N , x i ∈ R n x_{1},x_{2},\cdots,x_{N},x_{i}\in \mathbb{R^{n}} x1,x2,⋯,xN,xi∈Rn表示有 N N N个样本,每个样本是 n n n维向量
y 1 , y 2 , ⋯ , y N , y i ∈ R 1 y_{1},y_{2},\cdots,y_{N},y_{i}\in \mathbb{R^{1}} y1,y2,⋯,yN,yi∈R1表示每个样本的输出,每个输出都为一个标量.
y 1 = x 11 a 1 + x 12 a 2 + ⋯ + x 1 n a n y 2 = x 21 a 1 + x 22 a 2 + ⋯ + x 2 n a n ⋮ y N = x N 1 a 1 + x N 2 a 2 + ⋯ + x N n a n ( x 11 x 12 ⋯ x 1 n x 21 x 22 ⋯ x 2 n ⋮ ⋮ ⋱ ⋮ x N 1 x N 2 ⋯ x N n ) = ( y 1 y 2 ⋮ y N ) X N × n a n × 1 = Y N × 1 y_{1}=x_{11}a_{1}+x_{12}a_{2}+\cdots+x_{1n}a_{n}\\ y_{2}=x_{21}a_{1}+x_{22}a_{2}+\cdots+x_{2n}a_{n}\\ \vdots \\ y_{N}=x_{N1}a_{1}+x_{N2}a_{2}+\cdots+x_{Nn}a_{n} \begin{pmatrix} x_{11}&x_{12}&\cdots&x_{1n}\\ x_{21}& x_{22}& \cdots& x_{2n}\\ \vdots&\vdots &\ddots &\vdots\\ x_{N1}&x_{N2} &\cdots &x_{Nn} \end{pmatrix}=\begin{pmatrix} y_{1}\\y_{2}\\\vdots\\y_{N} \end{pmatrix} \\ X_{N\times n}a_{n\times 1}=Y_{N\times 1} y1=x11a1+x12a2+⋯+x1nany2=x21a1+x22a2+⋯+x2nan⋮yN=xN1a1+xN2a2+⋯+xNnan⎝⎜⎜⎜⎛x11x21⋮xN1x12x22⋮xN2⋯⋯⋱⋯x1nx2n⋮xNn⎠⎟⎟⎟⎞=⎝⎜⎜⎜⎛y1y2⋮yN⎠⎟⎟⎟⎞XN×nan×1=YN×1
当 N = n N=n N=n且 X N × n X_{N\times n} XN×n可逆时: a = X − 1 Y a=X^{-1}Y a=X−1Y
一般情况下: N ≠ n N\neq n N=n
那么 m i n ∥ X a − Y ∥ = J min\left \| Xa-Y \right \|=J min∥Xa−Y∥=J,构造损失函数, ∂ J ∂ a = X T ( X a − Y ) = 0 , X T X a = X T Y \frac{\partial J}{\partial a}=X^{T}(Xa-Y)=0,X^{T}Xa=X^{T}Y ∂a∂J=XT(Xa−Y)=0,XTXa=XTY, X T X X^{T}X XTX是否可逆?
关 于 此 部 分 的 矩 阵 损 失 函 数 求 导 以 及 以 下 的 说 明 , 后 续 会 讲 到 {\color{red}{关于此部分的矩阵损失函数求导以及以下的说明,后续会讲到}} 关于此部分的矩阵损失函数求导以及以下的说明,后续会讲到
1. N > n N>n N>n,如 N = 5 , n = 3 N=5,n=3 N=5,n=3, ( x T x ) 3 × 3 (x^{T}x)_{3\times 3} (xTx)3×3一般是可逆的, a = ( X T X ) − 1 X T Y a={\color{blue}{(X^{T}X)^{-1}X^{T}}}Y a=(XTX)−1XTY,蓝色部分称为矩阵 X X X的伪逆矩阵
2. N < n N<n N<n,如 N = 3 , n = 5 , ( X T X ) 5 × 5 , R ( X T X ) ≤ R ( X ) ≤ 3 N=3,n=5,(X^{T}X)_{5\times 5},R(X^{T}X)\leq R(X)\leq 3 N=3,n=5,(XTX)5×5,R(XTX)≤R(X)≤3,所以 X T X X^{T}X XTX不可逆。 通 过 加 入 二 范 数 正 则 化 项 , 可 解 决 不 可 逆 问 题 \color{red}{通过加入二范数正则化项,可解决不可逆问题} 通过加入二范数正则化项,可解决不可逆问题
补充: 设
A
A
A为
m
×
n
m\times n
m×n实矩阵,$R(A^{T}A)=R(A)\$
证明: 证明
A
X
=
0
(
1
)
AX=0 \qquad(1)
AX=0(1)与
A
T
A
X
=
0
(
2
)
A^{T}AX=0\qquad (2)
ATAX=0(2)同解系即可;如下:
显然
(
1
)
(1)
(1)的解是
(
2
)
(2)
(2)的解。设
X
0
X_{0}
X0是
(
2
)
(2)
(2)的解,则
A
T
A
X
0
=
0
A^{T}AX_{0}=0
ATAX0=0
所以有
X
0
T
A
T
A
X
0
=
0
,
(
A
X
0
)
T
A
X
0
=
0
X_{0}^{T}A^{T}AX_{0}=0,\qquad (AX_{0})^{T}AX_{0}=0
X0TATAX0=0,(AX0)TAX0=0,则
A
X
0
=
0
AX_{0}=0
AX0=0,所以
X
0
X_{0}
X0也是
(
2
)
(2)
(2)的解,即两个方程组同解进而基础解系含相同的个数的解向量。所以可得,
n − R ( A ) = n − R ( A T A ) R ( A T A ) = R ( A ) n-R(A)=n-R(A^{T}A) \\ R(A^{T}A)=R(A) n−R(A)=n−R(ATA)R(ATA)=R(A)
1.向量的线性相关,线性无关以及与可逆矩阵的关系
1.1 线性相关与线性无关
定义: 给定向量组
A
:
a
1
,
a
2
,
⋯
,
a
m
A:a_{1},a_{2},\cdots,a_{m}
A:a1,a2,⋯,am,如果存在不全为零的数
k
1
,
k
2
,
⋯
,
k
m
k_{1},k_{2},\cdots,k_{m}
k1,k2,⋯,km,使
k
1
a
1
+
k
2
a
2
+
⋯
+
k
m
a
m
=
0
k_{1}a_{1}+k_{2}a_{2}+\cdots+k_{m}a_{m}=0
k1a1+k2a2+⋯+kmam=0
则称向量组
A
A
A是线性相关的,否则为线性无关。
定理: 向量组 a 1 , a 2 , ⋯ a m a_{1},a_{2},\cdots a_{m} a1,a2,⋯am线性相关的充分必要是它所构成的矩阵 A = ( a 1 , a 2 , ⋯ , a m ) A=(a_{1},a_{2},\cdots,a_{m}) A=(a1,a2,⋯,am)的秩小于向量个数 m m m;向量组线性无关的充分必要条件 R ( A ) = m R(A)=m R(A)=m。
例:试讨论 n n n维单位坐标向量组的线性相关性
解: n n n维单位坐标向量组构成的矩阵 E = ( e 1 , e 2 , ⋯ , e n ) E=(e_{1},e_{2},\cdots,e_{n}) E=(e1,e2,⋯,en)是由 n n n阶单位矩阵,由 ∣ E ∣ = 1 ≠ 0 \left | E \right |=1\neq 0 ∣E∣=1=0,知 R ( E ) = n R(E)=n R(E)=n,即 R ( E ) R(E) R(E)等于向量组中向量个数,由定理可知,此向量组是线性无关的。
1.2 向量的内积,范数,正交,规范正交基
定义: 设有
n
n
n维向量
x
=
[
x
1
,
x
2
,
⋯
,
x
n
]
T
,
y
=
[
y
1
,
y
2
,
⋯
,
y
n
]
x=[x_{1},x_{2},\cdots,x_{n}]^{T},\qquad y=[y_{1},y_{2},\cdots,y_{n}]
x=[x1,x2,⋯,xn]T,y=[y1,y2,⋯,yn],令
[
x
,
y
]
=
x
1
y
1
+
x
2
y
2
+
⋯
+
x
n
y
n
[x,y]=x_{1}y_{1}+x_{2}y_{2}+\cdots+x_{n}y_{n}
[x,y]=x1y1+x2y2+⋯+xnyn称为向量
x
x
x与
y
y
y的内积,内积是两个向量之间的一种运算,其结果是一个实数,用矩阵记号表示,当
x
x
x与
y
y
y都是列向量时,有
[
x
,
y
]
=
x
T
y
[x,y]=x^{T}y
[x,y]=xTy
内积具有下列性质(其中 x , y , z x,y,z x,y,z为 n n n维向量, λ \lambda λ为实数)
(i) [ x , y ] = [ y , x ] [x,y]=\left[ y,x \right ] [x,y]=[y,x]
(ii) [ λ x , y ] = λ [ x , y ] [\lambda x,y]=\lambda [x,y] [λx,y]=λ[x,y]
(iii) [ x + y , z ] = [ x , z ] + [ y , z ] [x+y,z]=[x,z]+[y,z] [x+y,z]=[x,z]+[y,z]
(iv)当 x = 0 x =0 x=0时, [ x , x ] = 0 ; 当 x ≠ 0 , [ x , x ] > 0 [x,x]=0;当x\neq 0,[x,x]>0 [x,x]=0;当x=0,[x,x]>0
由 这 些 定 义 以 及 二 维 空 间 向 量 夹 角 的 概 念 c o s θ = [ a , b ] ∥ a ∥ ∥ b ∥ \color{red}{由这些定义以及二维空间向量夹角的概念cos\theta =\frac{[a,b]}{\left \| a \right \|\left \| b \right \|}} 由这些定义以及二维空间向量夹角的概念cosθ=∥a∥∥b∥[a,b],我们可以推广到高维空间,也可以用来衡量高维空间中两个样本的相似度的一种度量(不同于欧氏距离)
柯西不等式
[ x , y ] 2 ≤ [ x , x ] [ y , y ] [x,y]^{2}\leq[x,x][y,y] [x,y]2≤[x,x][y,y]
证明: ∀ x , y ∈ R n , l e t : z = x − λ y , [ z , z ] = [ x − λ y , x − λ y ] = [ x , x ] − 2 λ [ x , y ] + λ 2 [ y , y ] ≤ 0 ∀ λ , Δ = 4 [ x , y ] 2 − 4 [ x , x ] [ y , y ] ≤ 0 , [ x , y ] 2 ≤ [ x , x ] [ y , y ] \forall x,y\in \mathbb{R}^{n},let:\quad z=x-\lambda y,[z,z]=[x-\lambda y,x-\lambda y]=[x,x]-2\lambda[x,y]+\lambda^{2}[y,y]\leq 0 \\ \forall \lambda,\Delta=4[x,y]^{2}-4[x,x][y,y]\leq 0,\qquad [x,y]^{2}\leq [x,x][y,y] ∀x,y∈Rn,let:z=x−λy,[z,z]=[x−λy,x−λy]=[x,x]−2λ[x,y]+λ2[y,y]≤0∀λ,Δ=4[x,y]2−4[x,x][y,y]≤0,[x,y]2≤[x,x][y,y]
范数与正交
**定义:**令 ∥ x ∥ = [ x , x ] = x 1 2 + x 2 2 + ⋯ + x n 2 \left \| x \right \|=\sqrt{[x,x]}=\sqrt{x_{1}^{2}+x_{2}^{2}+\cdots+x_{n}^{2}} ∥x∥=[x,x]=x12+x22+⋯+xn2, ∥ x ∥ \qquad \left \| x \right \| ∥x∥称为 n n n维向量 x x x的长度(或者范数).
当 ∥ x ∥ = 1 \left \| x \right \|=1 ∥x∥=1时,称 x x x为单位向量
向量的长度具下述性质:
(i)非负性,当 x ≠ 0 x\neq 0 x=0时, ∥ x ∥ > 0 ; \left \| x \right \|>0; ∥x∥>0;当 x = 0 x=0 x=0时, ∥ x ∥ = 0 \left \| x \right \|=0 ∥x∥=0
(ii)齐次性, ∥ λ x ∥ = ∣ λ ∣ ∥ x ∥ \left \| \lambda x \right \|=|\lambda|\left \| x \right \| ∥λx∥=∣λ∣∥x∥;
(iii)三角不等式 ∥ x + y ∥ ≤ ∥ x ∥ + ∥ y ∥ \left \| x+y \right \|\leq \left \| x \right \|+\left \| y \right \| ∥x+y∥≤∥x∥+∥y∥(证明:不等式两边平方,然后利用柯西不等式即可证明)
当 [ x , y ] = 0 [x,y]=0 [x,y]=0时,,称向量 x x x与 y y y正交,显然,若 x = 0 x=0 x=0,则 x x x与任何向量都正交.
定理: 若 n n n维向量 a 1 , a 2 , ⋯ a r a_{1},a_{2},\cdots a_{r} a1,a2,⋯ar是一组两两正交的非零向量,则 a 1 , a 2 , ⋯ , a r a_{1},a_{2},\cdots,a_{r} a1,a2,⋯,ar线性无关.
规范正交基
定义: 设 n n n维向量 e 1 , e 2 , ⋯ , e r e_{1},e{2},\cdots,e_{r} e1,e2,⋯,er是向量空间 V ( V ∈ R n ) V(V\in \mathbb{R}^{n}) V(V∈Rn)的一个基,如果 e 1 , e 2 , ⋯ e r e_{1},e_{2},\cdots e_{r} e1,e2,⋯er两两正交,且都为单位向量,则称 e 1 , e 2 , ⋯ e r e_{1},e_{2},\cdots e_{r} e1,e2,⋯er是 V V V的一个规范正交基.
若 e 1 , e 2 , ⋯ e r e_{1},e_{2},\cdots e_{r} e1,e2,⋯er是 V V V的一个规范正交基,那么 V V V中的任一向量 a a a应能由 e 1 , e 2 , ⋯ e r e_{1},e_{2},\cdots e_{r} e1,e2,⋯er线性表示。
2.施密特正交化
设 a 1 , ⋯ , a r a_{1},\cdots,a_{r} a1,⋯,ar是向量空间 V V V的一个基,要求 V V V的一个规范正交基,这也就是要找一组两两正交的单位向量 e 1 , ⋯ , e r e_{1},\cdots,e_{r} e1,⋯,er,使 e 1 , ⋯ , e r e_{1},\cdots,e_{r} e1,⋯,er与 a 1 , ⋯ , a r a_{1},\cdots,a_{r} a1,⋯,ar等价,这样的一个问题,称为把 a 1 , a 2 , ⋯ , a r a_{1},a_{2},\cdots,a_{r} a1,a2,⋯,ar这个基规范正交化。
我们可以用以下办法把
a
1
,
⋯
,
a
r
a_{1},\cdots,a_{r}
a1,⋯,ar规范正交化:取
b
1
=
a
;
b
2
=
a
2
−
[
b
1
,
a
2
]
[
b
1
,
b
1
]
b
1
⋯
⋯
⋯
b
r
=
a
r
−
[
b
1
,
a
r
]
[
b
1
,
b
1
]
b
1
−
[
b
2
,
a
r
]
[
b
2
,
b
2
]
b
2
−
⋯
−
[
b
r
−
1
,
a
r
]
[
b
r
−
1
,
b
r
−
1
]
b
r
−
1
b_{1}=a;\\b_{2}=a_{2}-\frac{[b_{1},a_{2}]}{[b_{1},b_{1}]}b_{1}\\\cdots\cdots\cdots\\b_{r}=a_{r}-\frac{[b_{1},a_{r}]}{[b_{1},b_{1}]}b_{1}-\frac{[b_{2},a_{r}]}{[b_{2},b_{2}]}b_{2}-\cdots-\frac{[b_{r-1},a_{r}]}{[b_{r-1},b_{r-1}]}b_{r-1}
b1=a;b2=a2−[b1,b1][b1,a2]b1⋯⋯⋯br=ar−[b1,b1][b1,ar]b1−[b2,b2][b2,ar]b2−⋯−[br−1,br−1][br−1,ar]br−1
容易验证, b 1 , b 2 , ⋯ , b r b_{1},b_{2},\cdots,b_{r} b1,b2,⋯,br两两正交,且 b 1 , ⋯ , b r b_{1},\cdots,b_{r} b1,⋯,br与 a 1 , ⋯ a r a_{1},\cdots a_{r} a1,⋯ar等价,然后只要对它们单位化,即取
e
r
=
1
∥
b
r
∥
b
r
.
(
r
=
1
,
2
,
⋯
,
)
e_{r}=\frac{1}{\left \| b_{r} \right \|}b_{r}.\qquad (r=1,2,\cdots,)
er=∥br∥1br.(r=1,2,⋯,)
就是空间
V
V
V的一个规范正交基
定义: 如果 n n n阶矩阵 A A A满足 A T A = E A^{T}A=E ATA=E(即 A − 1 = A T A^{-1}=A^{T} A−1=AT),那么称 A A A为正交矩阵,简称正交阵
上式用
A
A
A的列向量表示,即是
[
a
1
T
a
2
T
,
⋮
a
n
T
]
(
a
1
,
a
2
,
⋯
,
a
n
)
=
E
\begin{bmatrix} a_{1}^{T}\\a_{2}^{T},\\ \vdots\\a_{n}^{T} \end{bmatrix}(a_{1},a_{2},\cdots,a_{n}) =E
⎣⎢⎢⎢⎡a1Ta2T,⋮anT⎦⎥⎥⎥⎤(a1,a2,⋯,an)=E
因为
A
T
A
=
E
A^{T}A=E
ATA=E与
A
A
T
=
E
AA^{T}=E
AAT=E等价,所以上述结论对
A
A
A的行向量亦成立。
由此可见,
n
n
n阶正交阵
A
A
A的
n
n
n个列(行)向量构成向量空间
R
n
\mathbb{R}^{n}
Rn的一个规范正交基
3.特征值和特征向量的定义以及直观的意义
定义: 设
A
A
A是
n
n
n阶矩阵,如果数
λ
\lambda
λ和
n
n
n维非零列向量
x
x
x使关系式
A
x
=
λ
x
Ax=\lambda x
Ax=λx
成立,那么,这样的数
λ
\lambda
λ称为矩阵
A
A
A的特征值,非零向量
x
x
x称为
A
A
A的对应特征值
λ
\lambda
λ的特征向量
直观意义:将一个矩阵作用在一个向量上,即线性变换,得到的向量与原向量平行(或者说线性相关)
特征方程: ( A − λ E ) x = 0 (A-\lambda E)x=0 (A−λE)x=0
特征多项式
∣
a
11
−
λ
a
12
⋯
a
1
n
a
21
a
22
−
λ
⋯
a
2
n
⋮
⋮
⋱
⋮
a
n
1
a
n
2
⋯
a
n
n
−
λ
∣
=
0
\begin{vmatrix} a_{11}-\lambda& a_{12}&\cdots &a_{1n} \\ a_{21}&a_{22}-\lambda &\cdots &a_{2n}\\ \vdots&\vdots &\ddots &\vdots\\ a_{n1}&a_{n2} &\cdots &a_{nn}-\lambda \end{vmatrix}=0
∣∣∣∣∣∣∣∣∣a11−λa21⋮an1a12a22−λ⋮an2⋯⋯⋱⋯a1na2n⋮ann−λ∣∣∣∣∣∣∣∣∣=0
推论
(i) λ 1 + λ 2 + ⋯ + λ n = t r ( A ) \lambda_{1}+\lambda_{2}+\cdots+\lambda_{n}=tr(A) λ1+λ2+⋯+λn=tr(A)
(ii) λ 1 λ 2 ⋯ λ n = ∣ A ∣ \lambda_{1}\lambda_{2}\cdots\lambda_{n}=|A| λ1λ2⋯λn=∣A∣
设 λ = λ i \lambda=\lambda_{i} λ=λi为矩阵 A A A的一个特征值,则由方程 ( A − λ i E ) x = 0 (A-\lambda_{i}E)x=0 (A−λiE)x=0可求得非零解 x = p i x=p_{i} x=pi,那么 p i p_{i} pi便是 A A A的对应特征值 λ i \lambda_{i} λi的特征向量.
ps: 对于任意矩阵 A A A其线性无关的特征向量个数小于矩阵的阶数(即特征值的个数(包含重根个数))
(iii)设 λ \lambda λ是方阵 A A A的特征值,则 λ 2 \lambda^{2} λ2是 A 2 A^{2} A2的特征值;当 A A A可逆时, 1 λ \frac{1}{\lambda} λ1是 A − 1 A^{-1} A−1的特征值
Prove: ∵ λ \because \qquad \lambda ∵λ是 A A A的特征值
∴ p ≠ 0 s u c h t h a t A p = λ p \therefore \qquad p\neq 0\qquad\qquad such \quad that \quad Ap=\lambda p ∴p=0suchthatAp=λp
∴ A 2 p = A ( A p ) = A ( λ p ) = λ ( A p ) = λ 2 p \therefore \qquad A^{2}p=A(Ap)=A(\lambda p)=\lambda(Ap)=\lambda^{2}p ∴A2p=A(Ap)=A(λp)=λ(Ap)=λ2p
W h e n A When A WhenA是可逆时,由 A p = λ p Ap=\lambda p Ap=λp,有 p = λ A − 1 p p=\lambda A^{-1}p p=λA−1p,由于 p ≠ 0 p\neq 0 p=0,知 λ ≠ 0 \lambda \neq 0 λ=0
∴ A − 1 p = 1 λ p \therefore A^{-1}p=\frac{1}{\lambda}p ∴A−1p=λ1p
按此例类推,不难证明:若 λ \lambda λ是 A A A的特征值,则 λ k \lambda^{k} λk是 A k A^{k} Ak的特征值; φ ( λ ) \varphi (\lambda) φ(λ)是 φ ( A ) \varphi (A) φ(A)的特征值,其中 φ ( λ ) = a 0 + a 1 λ + ⋯ + a m λ m \varphi (\lambda)=a_{0}+a_{1}\lambda +\cdots+a_{m}\lambda^{m} φ(λ)=a0+a1λ+⋯+amλm是 λ \lambda λ的多项式, φ ( A ) = a 0 E + a 1 A + ⋯ + a m A m \varphi (A)=a_{0}E+a_{1}A+\cdots+a_{m}A^{m} φ(A)=a0E+a1A+⋯+amAm是矩阵 A A A的多项式
定理: 设 λ 1 , λ 2 , ⋯ , λ m \lambda_{1},\lambda_{2},\cdots,\lambda^{m} λ1,λ2,⋯,λm是矩阵 A A A的 m m m个特征值, p 1 , p 2 , ⋯ p m p_{1},p_{2},\cdots p_{m} p1,p2,⋯pm依次是与之对应的特征向量,如果 λ 1 , ⋯ , λ m \lambda_{1},\cdots,\lambda_{m} λ1,⋯,λm各不相等,则 p 1 , p 2 , ⋯ , p m p_{1},p_{2},\cdots,p_{m} p1,p2,⋯,pm线性无关.
例题 设 λ 1 a n d λ 2 \lambda_{1} \quad and \quad \lambda_{2} λ1andλ2是矩阵 A A A的两个不同的特征值,对应的特征向量依次为 p 1 p_{1} p1和 p 2 p_{2} p2,证明 p 1 + p 2 p_{1}+p_{2} p1+p2不是 A A A的特征向量.
证明: 由题可知, A p 1 = λ 1 p 1 , A 2 p = λ 2 p 2 Ap_{1}=\lambda_{1}p_{1},\qquad A_{2}p=\lambda^{2}p_{2} Ap1=λ1p1,A2p=λ2p2,所以有 A ( p 1 + p 2 ) = λ 1 p 1 + λ 2 p 2 A(p_{1}+p_{2})=\lambda_{1}p_{1}+\lambda_{2}p_{2} A(p1+p2)=λ1p1+λ2p2
用反证法,假设 p 1 + p 2 p_{1}+p_{2} p1+p2是 A A A的特征向量,则应存在数 λ \lambda λ,使得 A ( P 1 + P 2 ) = λ ( P 1 + P 2 ) A(P_{1}+P_{2})=\lambda(P_{1}+P_{2}) A(P1+P2)=λ(P1+P2),于是
λ ( p 1 + p 2 ) = λ 1 p 1 + λ 2 p 2 \lambda(p_{1}+p_{2})=\lambda_{1}p_{1}+\lambda_{2}p_{2} λ(p1+p2)=λ1p1+λ2p2,即 ( λ 1 − λ ) p 1 + ( λ 2 − λ ) p 2 = 0 (\lambda_{1}-\lambda)p_{1}+(\lambda_{2}-\lambda)p_{2}=0 (λ1−λ)p1+(λ2−λ)p2=0
因为 λ 1 ≠ λ 2 \lambda_{1}\neq \lambda_{2} λ1=λ2,所以按照定理可知 p 1 , p 2 p_{1},p_{2} p1,p2线性无关,故由上式得 λ 1 − λ = λ 2 − λ = 0 \lambda_{1}-\lambda=\lambda_{2}-\lambda=0 λ1−λ=λ2−λ=0,即 λ 1 = λ 2 \lambda_{1}=\lambda_{2} λ1=λ2。与假设矛盾,因此 p 1 + p 2 p_{1}+p_{2} p1+p2不是 A A A的特征向量。
五、相似矩阵的定义以及矩阵的对角化
**定义:**设
A
,
B
A,B
A,B都是
n
n
n阶矩阵,若有可逆矩阵
P
P
P,使得
P
−
1
A
P
=
B
O
R
P
A
P
−
1
=
B
P^{-1}AP=B \qquad OR \qquad PAP^{-1}=B
P−1AP=BORPAP−1=B
则称
B
B
B是
A
A
A的相似矩阵,或者说矩阵
A
A
A与
B
B
B相似,对
A
A
A进行运算
P
−
1
A
P
P^{-1}AP
P−1AP称为对
A
A
A进行相似变换,可逆矩阵
P
P
P称为把
A
A
A变成
B
B
B的相似变换矩阵.
定理: 若 n n n阶矩阵 A A A与 B B B相似,则 A A A与 B B B的特征多项式相同,从而 A A A与 B B B的特征值亦相同。
证明: 设矩阵
B
B
B的特征多项式为
f
B
(
λ
)
=
∣
B
−
λ
E
∣
=
∣
P
−
1
A
P
−
λ
P
−
1
E
P
∣
=
∣
P
−
1
(
A
−
λ
E
)
P
∣
=
∣
A
−
λ
E
∣
f_{B(\lambda)}=|B-\lambda E|=|P^{-1}AP-\lambda P^{-1}EP|=|P^{-1}(A-\lambda E)P|=|A-\lambda E|
fB(λ)=∣B−λE∣=∣P−1AP−λP−1EP∣=∣P−1(A−λE)P∣=∣A−λE∣
推论: 若 n n n阶矩阵$A与对角阵相似
Λ
=
(
λ
1
λ
2
⋱
λ
n
)
\Lambda=\begin{pmatrix} \lambda_{1}& & &\\ & \lambda_{2}& &\\ & & \ddots&\\ & & &\lambda_{n} \end{pmatrix}
Λ=⎝⎜⎜⎛λ1λ2⋱λn⎠⎟⎟⎞
相似,则
λ
1
,
λ
2
,
⋯
,
λ
n
\lambda_{1},\lambda_{2},\cdots,\lambda_{n}
λ1,λ2,⋯,λn即
A
A
A的
n
n
n个特征值。
下面我们要讨论的主要问题是:对
n
n
n阶矩阵
A
A
A,寻求相似变换矩阵
P
P
P,使得
P
−
1
A
P
=
Λ
P^{-1}AP=\Lambda
P−1AP=Λ为对角阵,这就称为把矩阵
A
A
A对角化.
假设已经找到可逆矩阵 P P P,使得 P − 1 A P = Λ P^{-1}AP=\Lambda P−1AP=Λ,我们来讨论 P P P应满足什么关系.
把
P
P
P用其列向量表示为
P
=
(
p
1
,
p
2
,
⋯
,
p
n
)
P=(p_{1},p_{2},\cdots,p_{n})
P=(p1,p2,⋯,pn)
由
P
−
1
A
P
=
Λ
P^{-1}AP=\Lambda
P−1AP=Λ,得到
A
P
=
P
Λ
AP=P\Lambda
AP=PΛ
即
A
(
p
1
,
p
2
,
⋯
,
p
n
)
=
(
p
1
,
p
2
,
⋯
,
p
n
)
(
λ
1
λ
2
⋱
λ
n
)
=
(
λ
1
p
1
,
λ
2
p
2
,
⋯
,
λ
n
p
n
)
A(p_{1},p_{2},\cdots,p_{n})=(p_{1},p_{2},\cdots,p_{n})\begin{pmatrix} \lambda_{1}& & &\\ & \lambda_{2}& &\\ & & \ddots&\\ & & &\lambda_{n} \end{pmatrix}=(\lambda_{1}p_{1},\lambda_{2}p_{2},\cdots,\lambda_{n}p_{n})
A(p1,p2,⋯,pn)=(p1,p2,⋯,pn)⎝⎜⎜⎛λ1λ2⋱λn⎠⎟⎟⎞=(λ1p1,λ2p2,⋯,λnpn)
于是有, A p i = λ i p i , ( i = 1 , 2 , ⋯ , n ) Ap_{i}=\lambda_{i}p_{i},\quad (i=1,2,\cdots,n) Api=λipi,(i=1,2,⋯,n)
5.1一般矩阵对角化的条件
定理: n n n阶矩阵 A A A与对角阵相似(即 A A A能对角化)的充分必要条件是 A A A有 n n n个线性无关的特征向量.
定理: 设 λ 1 , λ 2 , ⋯ , λ m \lambda_{1},\lambda_{2},\cdots,\lambda_{m} λ1,λ2,⋯,λm是方阵 A A A的 m m m个特征值, p 1 , p 2 , ⋯ , p m p_{1},p_{2},\cdots,p_{m} p1,p2,⋯,pm依次是与之对应的特征向量,如果 λ 1 , λ 2 , ⋯ , λ m \lambda_{1},\lambda_{2},\cdots,\lambda_{m} λ1,λ2,⋯,λm各不相等, p 1 , p 2 , ⋯ , p m p_{1},p_{2},\cdots,p_{m} p1,p2,⋯,pm线性无关。
推论: 如果 n n n阶矩阵 A A A的 n n n个特征值互不相等,则 A A A与对角阵相似。
5.2 对称矩阵对角化
定理: 实对称矩阵的特征值为实数。
证明: 设实对称矩阵 A A A的特征值为 λ \lambda λ,特征向量为 x x x,那么
A x = λ x ( 1 ) Ax=\lambda x \qquad (1)\qquad \qquad Ax=λx(1)等式两边取共轭,那么得到 A ˉ x ˉ = λ ˉ x ˉ \bar{A}\bar{x}=\bar{\lambda}\bar{x} Aˉxˉ=λˉxˉ,
又因为
A
A
A为实对称矩阵,所以可得
A
x
ˉ
=
λ
ˉ
x
ˉ
A\bar{x}=\bar{\lambda}\bar{x}
Axˉ=λˉxˉ,等式(1)两边转置并右乘以
x
ˉ
\bar{x}
xˉ,得
x
T
A
x
ˉ
=
λ
x
T
x
ˉ
x^{T}A\bar{x}=\lambda x^{T}\bar{x}
xTAxˉ=λxTxˉ
所以,
λ
ˉ
x
T
x
ˉ
=
λ
x
T
x
ˉ
\bar{\lambda}x^{T}\bar{x}=\lambda x^{T}\bar{x}
λˉxTxˉ=λxTxˉ,又因为
x
x
x为非零向量,所以
λ
ˉ
=
λ
\bar{\lambda}=\lambda
λˉ=λ,即
λ
\lambda
λ为实数.
定理 设 λ 1 , λ 2 \lambda_{1},\lambda_{2} λ1,λ2是对称矩阵 A A A的两个特征值, p 1 , p 2 p_{1},p_{2} p1,p2是对应特征向量,若 λ 1 ≠ λ 2 \lambda_{1} \neq \lambda_{2} λ1=λ2,则 p 1 p_{1} p1与 p 2 p_{2} p2正交。
证明: 由题可知,
λ
1
p
1
T
=
(
λ
1
p
1
)
T
=
(
A
p
1
)
T
=
p
1
T
A
\lambda_{1}p_{1}^{T}=(\lambda_{1}p_{1})^{T}=(Ap_{1})^{T}=p_{1}^{T}A
λ1p1T=(λ1p1)T=(Ap1)T=p1TA,于是
λ
1
p
1
T
p
2
=
p
1
T
A
p
2
=
p
1
T
λ
2
p
2
=
λ
2
p
1
T
p
2
\lambda_{1}p_{1}^{T}p_{2}=p_{1}^{T}Ap_{2}=p_{1}^{T}\lambda_{2}p_{2}=\lambda_{2}p_{1}^{T}p_{2}
λ1p1Tp2=p1TAp2=p1Tλ2p2=λ2p1Tp2
即
(
λ
1
−
λ
2
)
p
1
T
p
2
=
0
(\lambda_{1}-\lambda_{2})p_{1}^{T}p_{2}=0
(λ1−λ2)p1Tp2=0
但是 λ 1 ≠ λ 2 \lambda_{1}\neq \lambda_{2} λ1=λ2,故 p 1 T p 2 = 0 p_{1}^{T}p_{2}=0 p1Tp2=0,即 p 1 与 p 2 p_{1}与p_{2} p1与p2正交。
**结论:**实对称矩阵 n × n n\times n n×n一定可以对角化,且一定有 n n n个线性无关的特征向量.
定理: 设 A A A为 n n n阶对称阵,则必有正交矩阵 P P P,使得 P − 1 A P = P T A P = Λ P^{-1}AP=P^{T}AP=\Lambda P−1AP=PTAP=Λ,其中 Λ \Lambda Λ是以 A A A的 n n n个特征值为对角元的对角阵。
推论: 设
A
A
A为
n
n
n阶对称阵,
λ
\lambda
λ是
A
A
A的特征方程的
k
k
k重根,则矩阵
A
−
λ
E
A-\lambda E
A−λE的秩
R
(
A
−
λ
E
)
=
n
−
k
R(A-\lambda E)=n-k
R(A−λE)=n−k ,且对应特征值
λ
\lambda
λ
恰有
k
k
k个线性无关的特征向量.
对称矩阵对角化步骤:
(i)求出 A A A的全部互不相等的特征值 λ 1 , λ 2 , ⋯ , λ s \lambda_{1},\lambda_{2},\cdots,\lambda_{s} λ1,λ2,⋯,λs,它们的重数依次为 k 1 , k 2 , ⋯ , k s , ( k 1 + k 2 + ⋯ + k s = n ) k_{1},k_{2},\cdots,k_{s},\qquad (k_{1}+k_{2}+\cdots+k_{s}=n) k1,k2,⋯,ks,(k1+k2+⋯+ks=n)。
(ii)对每个 k i k_{i} ki重特征值 λ i \lambda_{i} λi,求方程 ( A − λ i E ) x = 0 (A-\lambda_{i}E)x=0 (A−λiE)x=0的基础解系。得 k i k_{i} ki个线性无关得特征向量,再把它们正交化,单位化,得 k i k_{i} ki个两两正交的单位特征向量,因为 k 1 + ⋯ + k s = n k_{1}+\cdots+k_{s}=n k1+⋯+ks=n,故总共可得 n n n个两两正交的单位特征向量。
(iii) 把这 n n n个两两正交的单位特征向量构成正交矩阵 P P P,便有 P − 1 A P = P T A P = Λ P^{-1}AP=P^{T}AP=\Lambda P−1AP=PTAP=Λ,注意 Λ \Lambda Λ中的对角元的排列次序应与 P P P中列向量的排列次序相对应。
5.3 对角化在数据压缩算法中的简单应用
A
A
A为
n
n
n阶对称阵
A
=
P
−
1
Λ
P
=
P
T
Λ
P
A=P^{-1}\Lambda P=P^{T}\Lambda P
A=P−1ΛP=PTΛP
存 n n n阶的对称阵需要多少个参数呢? n ( n + 1 ) 2 \frac{n(n+1)}{2} 2n(n+1)个
令 P T = ( P 1 , P 2 , ⋯ , P N ) P^{T}=(P_{1},P_{2},\cdots,P_{N}) PT=(P1,P2,⋯,PN)
A = ( P 1 , p 2 , ⋯ , p n ) ( λ 1 λ 2 ⋱ λ n ) ( p 1 T p 2 T ⋮ p n T ) = λ 1 p 1 p 1 T + λ 2 p 2 p 2 T + ⋯ + λ n p n p n T (1) A=(P_{1},p_{2},\cdots,p_{n})\begin{pmatrix} \lambda_{1}& & &\\ & \lambda_{2}& &\\ & & \ddots&\\ & & &\lambda_{n} \end{pmatrix}\begin{pmatrix} p_{1}^{T}\\p_{2}^{T}\\\vdots\\p_{n}^{T} \end{pmatrix}=\lambda_{1}p_{1}p_{1}^{T}+\lambda_{2}p_{2}p^{T}_{2}+\cdots+\lambda_{n}p_{n}p_{n}^{T}\tag{1} A=(P1,p2,⋯,pn)⎝⎜⎜⎛λ1λ2⋱λn⎠⎟⎟⎞⎝⎜⎜⎜⎛p1Tp2T⋮pnT⎠⎟⎟⎟⎞=λ1p1p1T+λ2p2p2T+⋯+λnpnpnT(1)
假设 ∣ λ 1 ∣ ≥ ∣ λ 2 ∣ ≥ ∣ λ 3 ∣ ⋯ ≥ ∣ λ n ∣ |\lambda_{1}|\geq|\lambda_{2}|\geq|\lambda_{3}|\cdots \geq|\lambda_{n}| ∣λ1∣≥∣λ2∣≥∣λ3∣⋯≥∣λn∣
现在需要节省内存,可在损失一点精度的情况下来节省内存。对式子 ( 1 ) (1) (1)近似,可得
A
≈
λ
1
p
1
p
1
T
+
⋯
+
λ
k
p
k
p
k
T
k
≤
n
A\approx \lambda_{1}p_{1}p_{1}^{T}+\cdots+\lambda_{k}p_{k}p_{k}^{T} \qquad k\leq n
A≈λ1p1p1T+⋯+λkpkpkTk≤n
那么此时需要多少个参数存
A
A
A矩阵呢?
首先 λ 1 , ⋯ , λ k \lambda_{1},\cdots,\lambda_{k} λ1,⋯,λk有 k k k个参数,以及向量 p 1 , ⋯ , p k p_{1},\cdots,p_{k} p1,⋯,pk有 n × k n\times k n×k个参数,总共有 k ( n + 1 ) k(n+1) k(n+1)个参数。
而原需要 n ( n + 1 ) 2 = n 2 ( n + 1 ) \frac{n(n+1)}{2}=\frac{n}{2}(n+1) 2n(n+1)=2n(n+1)
若 n = 100 n=100 n=100,取 k = 10 k=10 k=10,那么可节省5倍内存.
损失精度为:
e
r
r
=
1
−
∑
i
=
1
k
∣
λ
i
∣
∑
i
=
1
n
∣
λ
i
∣
err=1-\frac{\sum_{i=1}^{k}|\lambda_{i}|}{\sum^{n}_{i=1}|\lambda_{i}|}
err=1−∑i=1n∣λi∣∑i=1k∣λi∣
5.4 二次型以及矩阵的正定性
在解析几何中,为了便于研究二次曲线
a
x
′
2
+
b
x
′
y
′
+
c
y
′
2
=
1
ax'^{2}+bx'y'+cy'^{2}=1
ax′2+bx′y′+cy′2=1
的几何性质,可以选择适当的坐标旋转变换
{
x
=
x
′
c
o
s
θ
−
y
′
s
i
n
θ
y
=
x
′
s
i
n
θ
+
y
′
c
o
s
θ
\left\{\begin{matrix} x={x}'cos\theta-{y}'sin\theta\\ y={x}'sin\theta+{y}'cos\theta \end{matrix}\right.
{x=x′cosθ−y′sinθy=x′sinθ+y′cosθ
即
(
x
y
)
=
(
c
o
s
θ
−
s
i
n
θ
s
i
n
θ
c
o
s
θ
)
(
x
′
y
′
)
\begin{pmatrix} x\\y \end{pmatrix}=\begin{pmatrix} cos\theta&-sin\theta\\ sin\theta&cos\theta \end{pmatrix}\begin{pmatrix} {x}'\\{y}' \end{pmatrix}
(xy)=(cosθsinθ−sinθcosθ)(x′y′)
把方程化为标准型
m
x
2
+
n
y
2
=
1
m{x}^{2}+n{y}^{2}=1
mx2+ny2=1
定义: 含有
n
n
n个变量
x
1
,
x
2
,
⋯
,
x
n
x_{1},x_{2},\cdots,x_{n}
x1,x2,⋯,xn的二次齐次函数
f
(
x
1
,
x
2
,
⋯
,
x
n
)
=
a
11
x
1
2
+
a
22
x
2
2
+
⋯
+
a
n
n
x
n
2
+
2
a
12
x
1
x
2
+
2
a
13
x
1
x
3
+
⋯
+
2
a
n
−
1
,
n
x
n
−
1
x
n
f(x_{1},x_{2},\cdots,x_{n})=a_{11}x_{1}^{2}+a_{22}x_{2}^{2}+\cdots+a_{nn}x_{n}^{2}+2a_{12}x_{1}x_{2}+2a_{13}x_{1}x_{3}+ \cdots+2a_{n-1,n}x_{n-1}x_{n}
f(x1,x2,⋯,xn)=a11x12+a22x22+⋯+annxn2+2a12x1x2+2a13x1x3+⋯+2an−1,nxn−1xn
称为二次型。
对于二次型,我们讨论的主要问题是:寻找可逆的线性变换
{
x
1
=
c
11
y
1
+
c
12
y
2
+
⋯
+
c
1
n
y
n
x
2
=
c
21
y
1
+
c
22
y
2
+
⋯
+
c
2
n
y
n
⋯
⋯
x
n
=
c
n
1
y
1
+
c
n
2
y
2
+
⋯
+
c
n
n
y
n
\left\{\begin{matrix} x_{1}=c_{11}y_{1}+c_{12}y_{2}+\cdots+c_{1n}y_{n}\\ x_{2}=c_{21}y_{1}+c_{22}y_{2}+\cdots+c_{2n}y_{n}\\ \cdots \cdots\\ x_{n}=c_{n1}y_{1}+c_{n2}y_{2}+\cdots+c_{nn}y_{n} \end{matrix}\right.
⎩⎪⎪⎨⎪⎪⎧x1=c11y1+c12y2+⋯+c1nynx2=c21y1+c22y2+⋯+c2nyn⋯⋯xn=cn1y1+cn2y2+⋯+cnnyn
使二次型只含平方项,也就是
f
=
k
1
y
1
2
+
k
2
y
2
2
+
⋯
+
k
n
y
n
2
f=k_{1}y_{1}^{2}+k_{2}y_{2}^{2}+\cdots+k_{n}y_{n}^{2}
f=k1y12+k2y22+⋯+knyn2
这种只含平方项的二次型,称为二次型的标准型(或法式)
如果标准形的系数
k
1
,
k
2
,
k
n
k_{1},k_{2},k_{n}
k1,k2,kn只在1,-1,0三个数中取值,能使
f
=
y
1
2
+
y
2
2
−
y
3
2
+
⋯
f=y_{1}^{2}+y_{2}^{2}-y_{3}^{2}+\cdots
f=y12+y22−y32+⋯
称上式为二次型的规范型.
一般的二次型可写成
f
=
a
11
x
1
2
+
a
12
x
1
x
2
+
⋯
+
a
1
n
x
1
x
n
+
a
21
x
2
x
1
+
a
22
x
2
2
+
⋯
+
a
2
n
x
2
x
n
+
⋯
+
a
n
1
x
n
x
1
+
a
n
2
x
n
x
2
+
⋯
+
a
n
n
x
n
2
=
∑
i
,
j
=
1
n
a
i
j
x
i
x
j
=
(
x
1
x
2
,
⋯
,
x
n
)
(
a
11
a
12
⋯
a
1
n
a
21
a
22
⋯
a
2
n
⋮
⋮
⋱
⋮
a
n
1
a
n
2
⋯
a
n
n
)
(
x
1
x
2
⋮
x
n
)
f=a_{11}x_{1}^{2}+a_{12}x_{1}x_{2}+\cdots+a_{1n}x_{1}x_{n}+ \\a_{21}x_{2}x_{1}+a_{22}x_{2}^{2}+\cdots+a_{2n}x_{2}x_{n} \\+\cdots+a_{n1}x_{n}x_{1}+a_{n2}x_{n}x_{2}+\cdots+a_{nn}x_{n}^{2} \\=\sum_{i,j=1}^{n}a_{ij}x_{i}x_{j} \\=\begin{pmatrix} x_{1}&x_{2},\cdots,x_{n} \end{pmatrix}\begin{pmatrix} a_{11}& a_{12}&\cdots &a_{1n}\\ a_{21}& a_{22}&\cdots &a_{2n}\\ \vdots& \vdots&\ddots &\vdots\\ a_{n1}&a_{n2} &\cdots &a_{nn} \end{pmatrix}\begin{pmatrix} x_{1}\\x_{2}\\\vdots\\x_{n} \end{pmatrix}
f=a11x12+a12x1x2+⋯+a1nx1xn+a21x2x1+a22x22+⋯+a2nx2xn+⋯+an1xnx1+an2xnx2+⋯+annxn2=i,j=1∑naijxixj=(x1x2,⋯,xn)⎝⎜⎜⎜⎛a11a21⋮an1a12a22⋮an2⋯⋯⋱⋯a1na2n⋮ann⎠⎟⎟⎟⎞⎝⎜⎜⎜⎛x1x2⋮xn⎠⎟⎟⎟⎞
记
A
=
(
a
11
a
12
⋯
a
1
n
a
21
a
22
⋯
a
2
n
⋮
⋮
⋱
⋮
a
n
1
a
n
2
⋯
a
n
n
)
,
x
=
(
x
1
x
2
⋮
x
n
)
A=\begin{pmatrix} a_{11}& a_{12}&\cdots &a_{1n}\\ a_{21}& a_{22}&\cdots &a_{2n}\\ \vdots& \vdots&\ddots &\vdots\\ a_{n1}&a_{n2} &\cdots &a_{nn} \end{pmatrix},\qquad x=\begin{pmatrix} x_{1}\\x_{2}\\\vdots\\x_{n} \end{pmatrix}
A=⎝⎜⎜⎜⎛a11a21⋮an1a12a22⋮an2⋯⋯⋱⋯a1na2n⋮ann⎠⎟⎟⎟⎞,x=⎝⎜⎜⎜⎛x1x2⋮xn⎠⎟⎟⎟⎞
则二次型可记作
f
=
x
T
A
x
f=x^{T}Ax
f=xTAx
其中
A
A
A为对称阵.
如果 A A A是对角矩阵该多好呀,就变成了标准型甚至规范型.
由前面可知,实对称矩阵一定可对角化,即 Λ = P T A P = P − 1 A P \Lambda=P^{T}A P=P^{-1}A P Λ=PTAP=P−1AP
设 x = P y x=Py x=Py,则 f = y T P T A P y = y T Λ y f=y^{T}P^{T}APy=y^{T}\Lambda y f=yTPTAPy=yTΛy,
推论: 对称矩阵 A A A为正定的充分必要条件是: A A A的特征值全为正.
定义: 设有二次型
f
(
x
)
=
x
T
A
x
f(x)=x^{T}Ax
f(x)=xTAx,如果对任何
x
≠
0
x\neq 0
x=0,都有
f
(
x
)
>
0
f(x)>0
f(x)>0(显然f(0)=0),则称
f
f
f为正定二次型,并称对称阵
A
A
A是正定的;如果对任何
x
≠
0
x\neq 0
x=0,都有
f
(
x
)
<
0
f(x)<0
f(x)<0,则称
f
f
f为负定二次型,并称对称矩阵
A
A
A是负定的。
x T A x = ∑ i = 1 n λ i y i 2 > 0 x^{T}Ax=\sum_{i=1}^{n}\lambda_{i}y_{i}^{2}>0 xTAx=∑i=1nλiyi2>0,则 λ i \lambda_{i} λi都为正;正定。
定理: n n n元二次型 f = x T A x f=x^{T}Ax f=xTAx为正定的充分必要条件:它的标准型的 n n n个系数全为正,即它的规范型的 n n n个系数全为1,亦即它的正惯性指数等于 n n n。
补充半正定:
x
T
A
x
≥
0
⇔
λ
i
≥
0
x^{T}Ax\geq 0 \Leftrightarrow \lambda_{i}\geq 0
xTAx≥0⇔λi≥0,注意
x
≠
0
x\neq 0
x=0
补充负半定:
x
T
A
x
≤
0
⇔
λ
i
≤
0
x^{T}Ax\leq 0 \Leftrightarrow \lambda_{i}\leq 0
xTAx≤0⇔λi≤0,注意
x
≠
0
x\neq 0
x=0
六、矩阵的正定型在机器学习线性回归算法中的运用(高级)
根据文章之前所述,有个问题待解决,问题如下:
N
<
n
,
s
u
c
h
a
s
N
=
3
,
n
=
5
(
X
T
X
)
5
×
5
,
R
(
X
T
X
)
≤
R
(
X
)
≤
3
N<n,such \quad as \quad N=3,n=5\\ (X^{T}X)_{5\times 5}\quad ,R(X^{T}X)\leq R(X)\leq 3
N<n,suchasN=3,n=5(XTX)5×5,R(XTX)≤R(X)≤3
故
X
T
X
X^{T}X
XTX不可逆
此刻,可重新定义损失函数 J = ∣ ∣ X a − Y ∣ ∣ + λ ∣ ∣ a ∣ ∣ 2 J=||Xa-Y||+\lambda ||a||^{2} J=∣∣Xa−Y∣∣+λ∣∣a∣∣2
求导,得到
∂
J
∂
a
=
X
T
X
a
−
X
T
Y
+
λ
a
=
0
\frac{\partial J}{\partial a}=X^{T}Xa-X^{T}Y+\lambda a=0
∂a∂J=XTXa−XTY+λa=0
,那么
(
X
T
X
+
λ
I
)
a
=
X
T
Y
(X^{T}X+\lambda I)a=X^{T}Y
(XTX+λI)a=XTY
且
(
X
T
X
+
λ
I
)
(X^{T}X+\lambda I)
(XTX+λI)必可逆,即可得
a
=
(
X
T
X
+
λ
I
)
−
1
X
T
Y
a=(X^{T}X+\lambda I)^{-1}X^{T}Y
a=(XTX+λI)−1XTY
关 于 证 明 矩 阵 X T X + λ I 可 逆 \color{red}{关于证明矩阵X^{T}X+\lambda I}可逆 关于证明矩阵XTX+λI可逆
证明: 从正定性角度来证明
1. a T ( x T x ) a = ( x a ) T ( x a ) ≥ 0 a_{T}(x^{T}x)a=(xa)^{T}(xa)\geq 0 aT(xTx)a=(xa)T(xa)≥0,即矩阵 X T X X^{T}X XTX半正定,所以 λ i ≥ 0 \lambda_{i}\geq 0 λi≥0
又因为矩阵(不局限于对称矩阵)的行列式等于其所有特征值相乘,即
x
T
x
=
λ
1
λ
2
⋯
λ
n
x^{T}x=\lambda_{1}\lambda_{2}\cdots\lambda_{n}
xTx=λ1λ2⋯λn
以下对对称矩阵
X
T
X
=
P
−
1
(
λ
1
⋱
λ
n
)
P
X^{T}X=P^{-1}\begin{pmatrix} \lambda_{1}& &\\ & \ddots&\\ & &\lambda_{n} \end{pmatrix}P
XTX=P−1⎝⎛λ1⋱λn⎠⎞P
两边取行列式,所以 X T X = λ 1 λ 2 ⋯ λ n X^{T}X=\lambda_{1}\lambda_{2}\cdots\lambda_{n} XTX=λ1λ2⋯λn
又因为矩阵 X T X X^{T}X XTX半正定,则 λ i ≥ 0 \lambda_{i}\geq 0 λi≥0,所以 X T X X^{T}X XTX仍然可能为0,不一定可逆.
2. a T ( X T X + λ I ) a = ( X a ) T ( X a ) + λ a T a > 0 a^{T}(X^{T}X+\lambda I)a=(Xa)^{T}(Xa)+\lambda a^{T}a>0 aT(XTX+λI)a=(Xa)T(Xa)+λaTa>0,即矩阵 X T X + λ I X^{T}X+\lambda I XTX+λI正定,所以 λ i ≥ 0 \lambda_{i}\geq 0 λi≥0
所以 ∣ X T X + λ I ∣ > 0 |X^{T}X+\lambda I|>0 ∣XTX+λI∣>0恒成立,一定可逆.
加 了 正 则 化 项 的 线 性 回 归 也 称 为 岭 回 归 \color{blue}{加了正则化项的线性回归也称为岭回归} 加了正则化项的线性回归也称为岭回归
七、SVD分解及其应用
SVD比较复杂,之后再单独分析