3 矩阵分解
3.1 三角分解( LU 分解)
定义 3.1.1 给定矩阵 A ∈ R n × n A\in\mathbf{R}^{n\times n} A∈Rn×n , 若存在下三角矩阵 L ∈ R n × n L\in\mathbf{R}^{n\times n} L∈Rn×n 和上三角矩阵 U ∈ R n × n U\in\mathbf{R}^{n\times n} U∈Rn×n 使得 A = L U A=LU A=LU , 这种分解称为矩阵的一个三角分解,又称 L U LU LU 分解。(Gauss消去法,待定系数法 )
定理 3.1.2 给定矩阵 A ∈ R n × n A\in\mathbf{R}^{n\times n} A∈Rn×n , 存在单位下三角阵 L ∈ R n × n L\in\mathbf{R}^{n\times n} L∈Rn×n 和可逆上三角阵 U ∈ R n × n U\in\mathbf{R}^{n\times n} U∈Rn×n, 使得 A = L U A=LU A=LU 的充分必要条件是 A A A 的各阶顺序主子阵均不为零.
∣ a 11 a 12 . . . a 1 , n − 1 a 21 a 22 . . . a 2 , n − 1 ⋮ ⋮ ⋮ a n − 1 , 1 a n − 1 , 2 . . . a n − 1 , n − 1 ∣ = ∣ a 11 ( 1 ) a 12 ( 1 ) ⋯ a 1 n ( 1 ) a 22 ( 2 ) a 2 n ( 2 ) ⋱ ⋮ a n − 1 , n − 1 ( n − 1 ) ∣ = a 11 ( 1 ) a 22 ( 2 ) ⋅ ⋅ ⋅ a n − 1 , n − 1 ( n − 1 ) , ~~~~~~\begin{aligned} \begin{vmatrix}a_{11}&a_{12}&...&a_{1,n-1}\\a_{21}&a_{22}&...&a_{2,n-1}\\\vdots&\vdots&&\vdots\\a_{n-1,1}&a_{n-1,2}&...&a_{n-1,n-1}\end{vmatrix}& =\begin{vmatrix}a_{11}^{(1)}&a_{12}^{(1)}&\cdots&a_{1n}^{(1)}\\&a_{22}^{(2)}&&a_{2n}^{(2)}\\&&\ddots&\vdots\\&&&a_{n-1,n-1}^{(n-1)}\end{vmatrix}=a_{11}^{(1)}a_{22}^{(2)}\cdotp\cdotp\cdotp a_{n-1,n-1}^{(n-1)}, \end{aligned} a11a21⋮an−1,1a12a22⋮an−1,2.........a1,n−1a2,n−1⋮an−1,n−1 = a11(1)a12(1)a22(2)⋯⋱a1n(1)a2n(2)⋮an−1,n−1(n−1) =a11(1)a22(2)⋅⋅⋅an−1,n−1(n−1),
Doolittle 分解
A = L U A=LU A=LU , L L L 是单位下三角矩阵, U U U 是上三角矩阵。在 Gauss 消去过程中有
A = L 1 − 1 L 2 − 1 ⋅ ⋅ ⋅ L n − 1 − 1 A ( n ) . \mathbf{A}=\mathbf{L}_1^{-1}\mathbf{L}_2^{-1}\cdotp\cdotp\cdotp\mathbf{L}_{n-1}^{-1}\mathbf{A}^{(n)}. A=L1−1L2−1⋅⋅⋅Ln−1−1A(n). L i − 1 = [ 1 ⋱ 1 l i + 1 , i 1 … ⋱ l n , i 1 ] , i = 1 , 2 , ⋯ , n − 1 \boldsymbol{L}_i^{-1}=\begin{bmatrix}1&&&&&\\&\ddots&&&&\\&&1&&&\\&&l_{i+1,i}&1&&\\&&\dots&&\ddots&\\&&l_{n,i}&&&1\end{bmatrix},\quad i=1,2,\cdots,n-1 Li−1= 1⋱1li+1,i…ln,i1⋱1 ,i=1,2,⋯,n−1
记 L = L 1 − 1 L 2 − 1 . . . L n − 1 − 1 L=L_1^{-1}L_2^{-1}...L_{n-1}^{-1} L=L1−1L2−1...Ln−1−1 是单位下三角矩阵, U = A ( n ) U=A^{(n)} U=A(n) 是一个上三角矩阵,则有 A = L U A=LU A=LU .
Crout 分解 A = L U A=LU A=LU , 这里 L L L 是下三角矩阵, U U U 是单位上三角矩阵.
LDU 分解 A = L D U A=LDU A=LDU , 这里 L L L 是单位下三角矩阵, D D D 是对角矩阵, U U U 是单位上三角矩阵.
以上三种分解统称为矩阵的三角分解,或者 L U LU LU 分解。如果不作特殊说明,一般所说的 L U LU LU 分解就是指 Doolittle 三角分解。实际上,尽管矩阵的三角分解不唯一,但是矩阵的这三种三角分解具有唯一性。
定理 3.1.3 若 A A A 为 n n n 阶矩阵,且所有顺序主子式均不等于零,则 A A A 可分解为一个单位下三角矩阵 L L L 与一个上三角矩阵 U U U 的乘积,即 A = L U A=LU A=LU ,且分解是唯一的. ( L 2 − 1 L 1 = U 2 U 1 − 1 = E L_{2}^{-1}L_{1}=U_{2}U_{1}^{-1}=E L2−1L1=U2U1−1=E )
定理 3.1.4 如果矩阵
A
A
A 的所有顺序主子式均不等于零,则
(1)
A
A
A 有唯一的三角分解
:
A
=
L
D
U
:A=LDU
:A=LDU ;(2)
A
A
A 有唯一的 Crout 分解
:
A
=
L
U
:A=LU
:A=LU 。
Cholesky 分解(对称正定矩阵)
当 A A A 为对称正定矩阵时,它的所有顺序主子式都大于零,故由定理3.4可知存在唯一的 L D U LDU LDU 分解. 由于对称正定的特殊性,可以得到一个性质更好的三角分解. (待定系数法 求 Cholesky 分解)
定理 3.1.5 若 A ∈ R n × n A\in\mathbf{R}^{n\times n} A∈Rn×n 为对称正定矩阵,则存在唯一的对角元素均为正的下三角矩阵 G G G , 使得 A = G G T A=GG^\mathrm{T} A=GGT , 这样的分解称为对称正定矩阵的 Cholesky 分解.
证明 根据定理3.4,由 A A A 是对称正定矩阵,存在唯一的 L D U LDU LDU 分解,即 A = L D U A=LDU A=LDU。其中 L L L 是单位下三角矩阵, D D D 是非奇异的对角矩阵, U U U 是单位上三角矩阵,
由 A A A 的对称性可得 L D U = U T D L T LDU=U^{\mathrm{T}}DL^{\mathrm{T}} LDU=UTDLT ,按照分解的唯一性可得 L = U T L=U^{\mathrm{T}} L=UT , 从而 A = A= A= L D L T . \boldsymbol{LDL^T}\:. LDLT.
设 D = diag ( d 1 , d 2 , . . . , d n ) , d i ≠ 0 , i = 1 , 2 , . . . , n . \boldsymbol{D}=\operatorname{diag}(d_1,d_2,...,d_n),d_i\neq0,i=1,2,...,n. D=diag(d1,d2,...,dn),di=0,i=1,2,...,n. 下证 D D D 的对角元素均为正,即 d i > 0 . d_i>0\:. di>0.
由于 L L L 是单位下三角矩阵,所以 L T L^\mathrm{T} LT 是单位上三角矩阵,当然也是非奇异矩阵。故对单位坐标向量 e i = ( 0 , . . . , 0 , 1 , 0 , . . . , 0 ) T e_i=(0,...,0,1,0,...,0)^T ei=(0,...,0,1,0,...,0)T , 存在非零向量 x i x_i xi , 使得 L T x i = e i , i = 1 , 2 , ⋯ , n . L^{\mathrm{T}}x_{i}=e_{i},\quad i=1,\:2,\:\cdots,\:n. LTxi=ei,i=1,2,⋯,n.
x i T A x i = x i T ( L D L T ) x i = ( L T x i ) T D ( L T x i ) = e i T D e i = d i . x_{i}^{\mathrm{T}}Ax_{i}=x_{i}^{\mathrm{T}}(LDL^{\mathrm{T}})x_{i}=(L^{\mathrm{T}}x_{i})^{\mathrm{T}}D(L^{\mathrm{T}}x_{i})=e_{i}^{\mathrm{T}}De_{i}=d_{i}\:. xiTAxi=xiT(LDLT)xi=(LTxi)TD(LTxi)=eiTDei=di.由 x i T A x i > 0 x_i^\mathrm{T}Ax_i>0 xiTAxi>0 , 从而 d i > 0 , i = 1 , 2 , . . . , n d_i>0,i=1,2,...,n di>0,i=1,2,...,n . 这就证明了 D D D 的对角元素都为正。
记 D 1 / 2 = d i a g ( d 1 , d 2 , ⋯ , d n ) \mathbf{D}^{1/2}=\mathrm{diag}(\sqrt{d_1},\sqrt{d_2},\cdots,\sqrt{d_n}) D1/2=diag(d1,d2,⋯,dn) ,则有
A = L D L T = L D 1 / 2 D 1 / 2 L T = ( L D 1 / 2 ) ( L D 1 / 2 ) T . \mathbf{A}=\mathbf{LDL}^\mathrm{T}=\mathbf{LD}^{1/2}\mathbf{D}^{1/2}\mathbf{L}^\mathrm{T}=(\mathbf{LD}^{1/2})(\mathbf{LD}^{1/2})^\mathrm{T}. A=LDLT=LD1/2D1/2LT=(LD1/2)(LD1/2)T.记 G = L D 1 / 2 G=LD^{1/2} G=LD1/2 , 则有 A = G G T A=GG^{\mathrm{T}} A=GGT ,其中 L L L 是对角元大于零的下三角矩阵. 易证这个三角分解也是唯一的。
3.2 正交三角分解(QR分解)
首先回顾一下正交矩阵的概念和性质。
定义 3.2.1 若矩阵
Q
∈
R
n
×
n
Q\in\mathbf{R}^{n\times n}
Q∈Rn×n , 且满足
Q
Q
T
=
Q
T
Q
=
E
QQ^\mathrm{T}=Q^\mathrm{T}Q=E
QQT=QTQ=E , 就称矩阵
Q
Q
Q 为正交矩阵。
正交矩阵的性质:
(
1
)
Q
−
1
=
Q
T
;
(1)\:Q^{-1}=Q^{\mathrm{T}}\:;
(1)Q−1=QT;
(
2
)
det
(
Q
)
=
±
1
;
(2)\:\det(Q)=\pm1\:;
(2)det(Q)=±1;
(
3
)
Q
x
(3) Qx
(3)Qx 的长度与
x
x
x 的长度相等.
下面介绍几类特殊的正交矩阵.
- 单位矩阵
E
E
E 和 置换矩阵
P
i
j
P_{ij}
Pij (将单位矩阵的任意两行(列)交换得到的矩阵)
任意个置换矩阵的乘积仍然是置换矩阵. - 旋转矩阵
[
cos
θ
sin
θ
−
sin
θ
cos
θ
]
\begin{bmatrix}\cos\theta&\sin\theta\\-\sin\theta&\cos\theta\end{bmatrix}
[cosθ−sinθsinθcosθ] 。二维平面中的一个向量用极坐标表示为
w
=
(
r
cos
ϕ
w=(r\cos\phi
w=(rcosϕ,
r
sin
ϕ
)
T
r\sin\phi)^{\mathrm{T}}
rsinϕ)T,那么
G
w
=
[
cos
θ
sin
θ
−
sin
θ
cos
θ
]
(
r
cos
ϕ
r
sin
ϕ
)
=
(
r
cos
(
θ
+
ϕ
)
r
sin
(
θ
+
ϕ
)
)
,
Gw=\begin{bmatrix}\cos\theta&\sin\theta\\-\sin\theta&\cos\theta\end{bmatrix}\binom{r\cos\phi}{r\sin\phi}=\binom{r\cos(\theta+\phi)}{r\sin(\theta+\phi)},
Gw=[cosθ−sinθsinθcosθ](rsinϕrcosϕ)=(rsin(θ+ϕ)rcos(θ+ϕ)),即
G
w
Gw
Gw 表示 将向量
w
w
w 逆时针旋转
θ
\theta
θ 角所得到的向量.
推广到 n × n n{\times}n n×n 的情形,形如 G ( i , j , θ ) = [ 1 ⋱ cos θ sin θ ⋱ − sin θ cos θ ⋱ 1 ] j i G(i,j,\theta)=\begin{bmatrix}1\\&\ddots\\&&\cos\theta&&\sin\theta&&\\&&&\ddots&&\\&&-\sin\theta&&\cos\theta&\\&&&&&\ddots\\&&&&&&1\end{bmatrix}\\^i_j G(i,j,θ)= 1⋱cosθ−sinθ⋱sinθcosθ⋱1 ji
的矩阵称为 Givens 矩阵 或 Givens 变换,或称(平面)旋转矩阵(旋转变换),其中 θ \theta θ 为旋转的角度 . 显然, G ( i , j , θ ) G(i,j,\theta) G(i,j,θ)也是正交矩阵. - 反射矩阵( Householder 变换) 设
w
∈
R
n
w\in\mathbb{R}^n
w∈Rn , 且
∥
w
∥
2
=
1
\|w\|_2=1
∥w∥2=1 , 则
P
=
I
−
2
w
w
T
P=I-2ww^\mathrm{T}
P=I−2wwT 称为 Householder 变换,或者 Householder 矩阵. Householder 矩阵有如下性质:
(1) P T = P P^{\mathrm{T}}=P PT=P , 即 P P P 是对称阵;
(2) P P T = P 2 = I − 2 w w T − 2 w w T + 4 w ( w T w ) w T = I PP^T=P^2=I-2ww^T-2ww^T+4w(w^Tw)w^T=I PPT=P2=I−2wwT−2wwT+4w(wTw)wT=I , 即 P P P 是正交阵,
(3) 如图 3-1 所示,设 w w w 是 R 3 \mathbf{R}^3 R3 上的一个单位向量,并设 S S S 为过原点且与 w w w 垂直的平面,则一切 v ∈ R 3 v\in\mathbf{R}^3 v∈R3 可分解成 v = v 1 + v 2 v=v_1+v_2 v=v1+v2 , 其中 v 1 ∈ S , v 2 ⊥ S . v_1\in S,v_2\perp S . v1∈S,v2⊥S. 不难验证 P v 1 = v 1 Pv_1=v_1 Pv1=v1, P v 2 = − v 2 Pv_2=-v_{2} Pv2=−v2,所以 P v = v 1 − v 2 Pv=v_{1}-v_{2} Pv=v1−v2 .
这样, v v v 经变换后的象 P v Pv Pv 是 v v v 关于 S 对称的向量 . 所以,Householder 变换(图 3-1)又称镜面反射变换,Householder 矩阵也称初等反射矩阵.
~
应用:对 x ≠ 0 x\neq0 x=0 , 求 Householder 矩阵 P P P , 使得 P x = k e 1 Px=ke_1 Px=ke1.
其中 e 1 = ( 1 , 0 , . . . , 0 ) T . e_1=(1,0,...,0)^{\mathrm{T}}. e1=(1,0,...,0)T. 由正交矩阵的性质可知 ∥ P x ∥ 2 = ∥ k e 1 ∥ 2 = ∥ x ∥ 2 \parallel Px\parallel_2=\parallel ke_1\parallel_2=\parallel x\parallel_2 ∥Px∥2=∥ke1∥2=∥x∥2 , 即 k = k= k= ± ∥ x ∥ 2 \pm\parallel x\parallel_2 ±∥x∥2 . 由上面所讨论的 P P P 的构造,有 u = x − k e 1 , w = u ∥ u ∥ 2 . u=x-ke_1,\quad w=\frac u{\parallel u\parallel_2}. u=x−ke1,w=∥u∥2u.设 x = ( x 1 , . . . , x n ) T x=(x_1,...,x_n)^\mathrm{T} x=(x1,...,xn)T , 为了使 x − k e 1 x-ke_1 x−ke1 计算时不损失有效数位(一正一负可能消掉),取
k = − sign ( x 1 ) ∥ x ∥ 2 , sign ( x 1 ) = { 1 , 当 x 1 ⩾ 0 , − 1 , 当 x 1 < 0 , k=-\operatorname{sign}(x_1)\parallel x\parallel_2,\quad\operatorname{sign}(x_1)=\begin{cases}\quad1,&\text{当}x_1\geqslant0,\\-1,&\text{当}x_1<0,\end{cases} k=−sign(x1)∥x∥2,sign(x1)={1,−1,当x1⩾0,当x1<0, 则 u = ( x 1 + s i g n ( x 1 ) ∥ x ∥ 2 , x 2 , ⋯ , x n ) T \boldsymbol{u}=(x_1+\mathrm{sign}(x_1)\parallel\boldsymbol{x}\parallel_2,\:x_2,\:\cdots,\:x_n)^\mathrm{T} u=(x1+sign(x1)∥x∥2,x2,⋯,xn)T,从而 P = I − β u u T P=I-\beta u\:u^\mathrm{T} P=I−βuuT ,其中
β = 2 ( ∥ u ∥ 2 2 ) − 1 = 2 ( ∥ x ∥ 2 ( ∥ x ∥ 2 + ∣ x 1 ∣ ) ) − 1 . \beta=2(\parallel\boldsymbol{u}\parallel_2^2)^{-1}=2(\parallel\boldsymbol{x}\parallel_2(\parallel\boldsymbol{x}\parallel_2+| x_1|))^{-1}. β=2(∥u∥22)−1=2(∥x∥2(∥x∥2+∣x1∣))−1.
定义 3.2.1 给定矩阵 A ∈ R n × n A\in\mathbf{R}^{n\times n} A∈Rn×n , 若存在 正交矩阵 Q ∈ R n × n Q\in\mathbf{R}^{n\times n} Q∈Rn×n 和 上三角矩阵 R ∈ R n × n R\in\mathbf{R}^{n\times n} R∈Rn×n 使得 A = Q R A=QR A=QR , 这种分解称为矩阵的一个正交三角分解,又称 Q R QR QR 分解 .
定理 3.2.2 设 A ∈ R n × n A\in\mathbf{R}^{n\times n} A∈Rn×n , 则存在正交阵 Q Q Q , 使得 A = Q R A=QR A=QR , 其中 R R R 为上三角阵 .
证明 构造性证明 . 首先,考虑 A A A 的第一列 a 1 = ( a 11 , a 21 , . . . , a n 1 ) T a_1=(a_{11},a_{21},...,a_{n1})^T a1=(a11,a21,...,an1)T , 可找到 Householder 矩阵 P 1 P_1 P1 , 使得 P 1 a 1 P_1a_1 P1a1 的元素除了第 1 个以外都为零. 同理,找到 P 2 P_{2} P2 使得 P 2 P 1 A P_{2}P_{1}A P2P1A 的第 2 列对角元以下元素为零,而第一列对角元以下元素与 P 1 A P_1\mathbf{A} P1A 一样是零.依次这样下去,可以得到 P n − 1 P n − 2 . . . P 1 A = R , P_{n-1}P_{n-2}...P_1A=R\:, Pn−1Pn−2...P1A=R, 其中 R R R 为上三角矩阵, Q T = P n − 1 P n − 2 . . . P 1 Q^\mathrm{T}=P_{n-1}P_{n-2}...P_1 QT=Pn−1Pn−2...P1 为正交阵,定理证毕.
该定理保证了 A A A 可分解为 A = Q R A=QR A=QR , 若 A A A 非奇异,则 R R R 也非奇异 . 如果不规定 R R R 的对角元为正,则分解不是唯一的.
定理 3.2.3 设 A ∈ R n × n A\in\mathbf{R}^{n\times n} A∈Rn×n , 且 A A A 非奇异,则存在正交阵 Q Q Q 与上三角阵 R R R , 使得 A = Q R , A=QR, A=QR, 且当 R R R 的对角元均为正时,分解是唯一的.
另外,注意到 A T A = ( Q R ) T Q R = R T Q T Q R = R T R A^{\mathrm{T}}A=(QR)^{\mathrm{T}}QR=R^{\mathrm{T}}Q^{\mathrm{T}}QR=R^{\mathrm{T}}R ATA=(QR)TQR=RTQTQR=RTR,所以,矩阵 A A A 正交三角分解中的 R R R 恰好是矩阵 A T A A^\mathrm{T}A ATA 的 Cholesky 分解中的上三角矩阵.
除了用 Householder 变换和 Givens 变换,还可以用 Gram-Schmidt 正交化 过程 计算矩阵 A 的正交三角分解.
设有3个
n
n
n 阶向量
α
1
,
α
2
,
α
3
\alpha_1,\alpha_2,\alpha_3
α1,α2,α3线性无关,令
β
1
=
α
1
β
2
=
α
2
−
(
α
2
,
β
1
)
∣
β
1
∣
2
β
1
β
3
=
α
3
−
(
α
3
,
β
2
)
∣
β
2
∣
2
β
2
−
(
α
3
,
β
1
)
∣
β
1
∣
2
β
1
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~\begin{aligned} &\beta_1=\alpha_1 \\ & \beta_2=\alpha_2-\frac{(\alpha_2,\beta_1)}{|\beta_1|^2}\beta_1 \\ & \beta_{3}=\alpha_{3}-\frac{(\alpha_{3},\beta_{2})}{|\beta_{2}|^{2}}\beta_{2}-\frac{(\alpha_{3},\beta_{1})}{|\beta_{1}|^{2}}\beta_{1} \\ \end{aligned}
β1=α1β2=α2−∣β1∣2(α2,β1)β1β3=α3−∣β2∣2(α3,β2)β2−∣β1∣2(α3,β1)β1
用 Schmidt 正交化方法可构造
Q
=
(
β
1
∣
β
1
∣
,
β
2
∣
β
2
∣
,
β
3
∣
β
3
∣
)
Q=(\frac{\beta_1}{|\beta_1|},\frac{\beta_2}{|\beta_2|},\frac{\beta_3}{|\beta_3|})
Q=(∣β1∣β1,∣β2∣β2,∣β3∣β3) , 可知
Q
H
Q
=
I
Q^HQ=I
QHQ=I 。而
R
=
Q
H
A
R=Q^HA
R=QHA 。
3.3 满秩分解
如果矩阵 A \mathbf A A 的行(列)向量组线性无关,则称 A A A 为行(列)满秩矩阵.
定理 3.3.1 设 A ∈ R m × n \mathbf A\in\mathbb{R}^{m\times n} A∈Rm×n 且 r a n k ( A ) = r ⩽ min { m , n } \mathrm{rank}(\mathbf A)=r\leqslant\min\{m,n\} rank(A)=r⩽min{m,n} , 则可将 A \mathbf A A 作满秩分解 A = C D \mathbf {A=CD} A=CD其中, C ∈ R m × r , D ∈ R r × n \mathbf C\in\mathbb{R}^{m\times r},\mathbf D\in\mathbb{R}^{r\times n}\: C∈Rm×r,D∈Rr×n, 且 r a n k ( C ) = r a n k ( D ) = r . \mathrm{rank}(\mathbf{C})=\mathrm{rank}(\mathbf{D})=r\:. rank(C)=rank(D)=r.
证明 因为 r a n k ( A ) = r \mathrm{rank}(\mathbf A)=r rank(A)=r , 所以存在 m m m 阶可逆阵 P P P 和 n n n 阶置换阵 Q Q Q , 使得 A = P ( E r O O O ) Q T . A=P\begin{pmatrix}\mathbf{E}_r&\mathbf{O}\\\mathbf{O}&\mathbf{O}\end{pmatrix}Q^\mathrm{T}. A=P(ErOOO)QT.
令 P = ( P 1 , P 2 ) P=(P_1,P_2) P=(P1,P2) , 其中 P 1 P_1 P1 是 m × r m{\times}r m×r 列满秩阵,这样
A = ( P 1 , P 2 ) ( E r O O O ) Q T = ( P 1 , O ) Q T = P 1 ( E r , O ) Q T , \mathbf{A}=(\mathbf{P}_1,\:\mathbf{P}_2)\begin{pmatrix}\mathbf{E}_r&\mathbf{O}\\\mathbf{O}&\mathbf{O}\end{pmatrix}\mathbf{Q}^\mathrm{T}=(\mathbf{P}_1,\:\mathbf{O})\mathbf{Q}^\mathrm{T}=\mathbf{P}_1(\mathbf{E}_r,\:\mathbf{O})\mathbf{Q}^\mathrm{T}, A=(P1,P2)(ErOOO)QT=(P1,O)QT=P1(Er,O)QT,显然,( E r , B ) Q T E_r,B)Q^\mathrm{T} Er,B)QT 是行满秩的 r × n r{\times}n r×n 阵 . 令 C = P 1 , D = ( E r , B ) Q T \mathbf C={\mathbf{P}}_1,\mathbf D=(\mathbf E_r,\mathbf B)\mathbf Q^\mathrm{T} C=P1,D=(Er,B)QT , 即得所证。
设
C
=
(
c
1
,
c
2
,
⋯
,
c
r
)
,
D
=
(
d
1
,
d
2
,
⋯
,
d
r
)
C=(c_1,c_2,\cdots,c_r),D=(d_1,d_2,\cdots,d_r)
C=(c1,c2,⋯,cr),D=(d1,d2,⋯,dr) , 则
A
=
(
c
1
,
c
2
,
⋯
,
c
r
)
(
d
1
T
d
2
T
⋮
d
r
T
)
=
∑
i
=
1
r
c
i
d
i
T
,
\mathbf A=(c_1,c_2,\cdots,c_r)\begin{pmatrix}d_1^\mathrm{T}\\d_2^\mathrm{T}\\\vdots\\d_r^\mathrm{T}\end{pmatrix}=\sum_{i=1}^rc_id_i^\mathrm{T},
A=(c1,c2,⋯,cr)
d1Td2T⋮drT
=∑i=1rcidiT,
这也是
A
\mathbf A
A 的满秩分解的一种表示形式.
例 3.3.2 A = ( α 1 , α 2 , α 3 , α 4 , α 5 ) = [ 2 1 6 1 0 3 2 10 1 0 2 3 10 − 1 3 4 4 16 0 1 ] \begin{aligned}&A=(\boldsymbol{\alpha}_1,\boldsymbol{\alpha}_2,\boldsymbol{\alpha}_3,\boldsymbol{\alpha}_4,\boldsymbol{\alpha}_5)=\begin{bmatrix}2&1&6&1&0\\3&2&10&1&0\\2&3&10&-1&3\\4&4&16&0&1\end{bmatrix}\end{aligned} A=(α1,α2,α3,α4,α5)= 23241234610101611−100031 ,求矩阵 A A A 的满秩分解 .
解 先用行初等变换把矩阵 A A A 化为简化阶梯形 ∣ 1 0 2 1 0 0 1 2 − 1 0 0 0 0 0 1 0 0 0 0 0 ∣ = ( β 1 , β 2 , β 3 , β 4 , β 5 ) = ( D O ) \begin{vmatrix}1&0&2&1&0\\0&1&2&-1&0\\0&0&0&0&1\\0&0&0&0&0\\\end{vmatrix}=(\boldsymbol{\beta}_1,\boldsymbol{\beta}_2,\boldsymbol{\beta}_3,\boldsymbol{\beta}_4,\boldsymbol{\beta}_5)=\begin{pmatrix}\boldsymbol{D}\\\boldsymbol{O}\end{pmatrix} 1000010022001−1000010 =(β1,β2,β3,β4,β5)=(DO) , 其中, D = [ 1 0 2 1 0 0 1 2 − 1 0 0 0 0 0 1 ] \boldsymbol{D}=\begin{bmatrix}1&0&2&1&0\\0&1&2&-1&0\\0&0&0&0&1\end{bmatrix} D= 1000102201−10001 是 3 × 5 3×5 3×5 行满秩阵.显然 β 1 , β 2 , β 5 \beta_1,\beta_2,\beta_5 β1,β2,β5 线性无关,且 p 3 = 2 β 1 + 2 β 2 , β 4 = β 1 − β 2 p_3=2\boldsymbol{\beta}_1+2\boldsymbol{\beta}_2,\boldsymbol{\beta}_4=\boldsymbol{\beta}_1-\boldsymbol{\beta}_2 p3=2β1+2β2,β4=β1−β2 .由于行初等变换保持矩阵列向量组的线性组合关系,因此 α 1 , α 2 , α 5 \alpha_1,\alpha_2,\alpha_5 α1,α2,α5 线性无关,且 α 3 = 2 α 1 + 2 α 2 , α 4 = α 1 − α 2 \boldsymbol{\alpha}_3=2\boldsymbol{\alpha}_1+2\boldsymbol{\alpha}_2,\boldsymbol{\alpha}_4=\boldsymbol{\alpha}_1-\boldsymbol{\alpha}_2 α3=2α1+2α2,α4=α1−α2. 取 C = ( α 1 , α 2 , α 5 ) = ∣ 2 1 0 3 2 0 2 3 3 4 4 1 ∣ \boldsymbol C=(\boldsymbol{\alpha}_1,\boldsymbol{\alpha}_2,\boldsymbol{\alpha}_5)=\begin{vmatrix}2&1&0\\3&2&0\\2&3&3\\4&4&1\end{vmatrix} C=(α1,α2,α5)= 232412340031 , 显然 C C C 是 4 × 3 4×3 4×3 列满秩阵,
且满足 C D = ( α 1 , α 2 , α 5 ) [ 1 0 2 1 0 0 1 2 − 1 0 0 0 0 0 1 ] = ( α 1 , α 2 , 2 α 1 + 2 α 2 , α 1 − α 2 , α 5 ) = ( α 1 , α 2 , α 3 , α 4 , α 5 ) = A \begin{aligned} \boldsymbol{CD} &=(\boldsymbol{\alpha}_{1}\:,\:\boldsymbol{\alpha}_{2}\:,\:\boldsymbol{\alpha}_{5}\:)\:\begin{bmatrix}1&0&2&1&0\\0&1&2&-1&0\\0&0&0&0&1\end{bmatrix} \\ &=(\alpha_1,\alpha_2,2\alpha_1+2\alpha_2,\alpha_1-\alpha_2,\alpha_5) \\ &=(\alpha_1,\alpha_2,\alpha_3,\alpha_4,\alpha_5)\\ &=\mathbf{A} \end{aligned} CD=(α1,α2,α5) 1000102201−10001 =(α1,α2,2α1+2α2,α1−α2,α5)=(α1,α2,α3,α4,α5)=A
进一步有
定理 3.3.3 (正交满秩分解定理) 设
A
\boldsymbol A
A 是
m
×
n
m\times n
m×n 阶实矩阵,
A
\boldsymbol A
A 的秩为
r
r
r , 则存在
m
×
r
m\times r
m×r 列正交矩阵
Q
\boldsymbol Q
Q 和行满秩的
r
×
n
r\times n
r×n 阵
R
\boldsymbol R
R , 使
A
=
Q
R
\boldsymbol {A=QR}
A=QR . 其中,
Q
\boldsymbol Q
Q 列正交的含义为
Q
T
Q
=
E
r
.
\boldsymbol {Q^\mathrm{T}Q=E_r}.
QTQ=Er.
证明 由定理 3.3.1 知存在列满秩的 m × r m\times r m×r 阵 C \boldsymbol C C 和行满秩的 r × n r\times n r×n 阵 D \boldsymbol D D , 使 A = C D \boldsymbol {A=CD} A=CD .
于是 C T C \boldsymbol {C^\mathrm{T}C} CTC 是秩为 r r r 的 r r r 阶对称方阵,且易证 C T C \boldsymbol {C^\mathrm{T}C} CTC 是正定阵,这样存在 r r r 阶对称正定阵 S \boldsymbol S S , 使 C T C = S 2 \boldsymbol {C^{\mathrm{T}}C=S^{2}} CTC=S2 ,
且 ( C S − 1 ) T ( C S − 1 ) = S − 1 C T C S − 1 = S − 1 S 2 S − 1 = E r . \boldsymbol {(CS^{-1})^{\mathrm{T}}(CS^{-1})=S^{-1}C^{\mathrm{T}}CS^{-1}=S^{-1}S^{2}S^{-1}=E_{r}}\:. (CS−1)T(CS−1)=S−1CTCS−1=S−1S2S−1=Er.
记 Q = C S − 1 , R = S D \boldsymbol {Q=CS^{-1},R=SD} Q=CS−1,R=SD , 则 Q \boldsymbol Q Q 是 m × r m\times r m×r 列正交阵且 R \boldsymbol R R 是行满秩的 r × n r\times n r×n 阵,显然有 Q R = C S − 1 S D = C D = A . \boldsymbol {QR=CS^{-1}SD=CD=A}\:. QR=CS−1SD=CD=A.
3.4 谱分解
矩阵的谱分解仅对某一类特殊的矩阵讨论。通常将可以酉对角化的矩阵称为正规矩阵,即有下面的定义.
定义 3.4.1 设矩阵 A ∈ C n × n \boldsymbol A\in\mathbb{C}^{n\times n} A∈Cn×n , 若 A A H = A H A \boldsymbol{AA^{\mathrm{H}}=A^{\mathrm{H}}A} AAH=AHA , 则称 A \boldsymbol A A 为 正规矩阵.
实对称矩阵、实反对称矩阵、正交矩阵、Hermite 矩阵、反 Hermite 矩阵、西矩阵都是正规矩阵。另外,若 A \boldsymbol A A 为正规矩阵,则与 A \boldsymbol A A 酉相似的矩阵仍为正规矩阵.
正规矩阵具有许多好的数学特性.
定理 3.4.2 设矩阵 A ∈ C n × n \boldsymbol A\in\mathbb{C}^{n\times n} A∈Cn×n ,则 A \boldsymbol A A 是正规矩阵当且仅当 A \boldsymbol A A 有 n n n 个两两正交的单位特征向量。
证 首先 A X = λ 1 X AX= \lambda _{1}X AX=λ1X 可得 A H X = λ ‾ 1 X A^{H}X= \overline {\lambda }_{1}X AHX=λ1X.
引理1: A X = 0 ⇔ ∣ ∣ A X ∣ ∣ = 0 ⇔ X H A A H X = 0 ⇔ A H X = 0 AX=0\Leftrightarrow||AX||=0\Leftrightarrow X^{H}AA^{H}X=0\Leftrightarrow A^{H}X=0 AX=0⇔∣∣AX∣∣=0⇔XHAAHX=0⇔AHX=0
引理2:若 A A A 正规 A X = λ X ⇒ A H X = λ ‾ X AX=\lambda X\Rightarrow A^{H}X=\overline{\lambda}X AX=λX⇒AHX=λX
~~~~~~~ 只 需 证 ( A − λ I ) H X = 0 ( A- \lambda I) ^HX= 0 (A−λI)HX=0,
~~~~~~~ 由 ( A − λ I ) X = 0 ⇒ ( ( A − λ I ) X ) H ( A − λ I ) X = 0 ⇒ X H ( A − λ I ) H ( A − λ I ) X = 0 ( A- \lambda I) X= 0\Rightarrow\left((A-\lambda I)X\right)^H(A-\lambda I)X=0\Rightarrow X^H(A-\lambda I)^H(A-\lambda I)X=0 (A−λI)X=0⇒((A−λI)X)H(A−λI)X=0⇒XH(A−λI)H(A−λI)X=0
~~~~~~~ 由于 A − λ I A-\lambda I A−λI 正规, ( A − λ I ) H ( A − λ I ) = ( A − λ I ) ( A − λ I ) H ( A- \lambda I) ^H( A- \lambda I) = ( A- \lambda I) ( A- \lambda I) ^H (A−λI)H(A−λI)=(A−λI)(A−λI)H
~~~~~~~ 即有 X H ( ( A − λ I ) H ) H ( A − λ I ) H X = 0 X^H((A-\lambda I)^H)^H(A-\lambda I)^HX=0 XH((A−λI)H)H(A−λI)HX=0
~~~~~~~ ⇒ ( ( A − λ I ) H X ) H ( A − λ I ) H X = ∣ ( A − λ I ) H X ∣ 2 = 0 \Rightarrow((A-\lambda I)^HX)^H(A-\lambda I)^HX=|(A-\lambda I)^HX|^2=0 ⇒((A−λI)HX)H(A−λI)HX=∣(A−λI)HX∣2=0
~~~~~~~ ⇒ ( A − λ I ) H X = 0 ⇒ ( A H − λ ‾ I ) X = 0 ⇒ A H X = λ ‾ X \Rightarrow(A-\lambda I)^HX=0\Rightarrow(A^H-\overline{\lambda}I)X=0\Rightarrow A^HX=\overline{\lambda}X ⇒(A−λI)HX=0⇒(AH−λI)X=0⇒AHX=λX
~~~~~~~ 故结论得证,若 A A A 正规,则 A X = λ X ⟺ A H X = λ ‾ X AX=\lambda X\Longleftrightarrow A^HX=\overline{\lambda}X AX=λX⟺AHX=λX
~~~~~~~ 其中,若 λ ( A ) = { λ 1 , ⋯ , λ n } \lambda(A)=\{\lambda_1,\cdots,\lambda_n\} λ(A)={λ1,⋯,λn},则 λ ( A H ) = { λ 1 ‾ , ⋯ , λ n ‾ } \lambda(A^H)=\{\overline{\lambda_1},\cdots,\overline{\lambda_n}\} λ(AH)={λ1,⋯,λn}
下证 A x = λ 1 x , A y = λ 2 y Ax=\lambda_{1}x,Ay=\lambda_{2}y Ax=λ1x,Ay=λ2y, x H y = 0 x^{H}y=0 xHy=0
y H A x = y H λ 1 x = λ 1 y H x y^{H}Ax=y^{H}\lambda_1x=\lambda_1y^{H}x yHAx=yHλ1x=λ1yHx
= ( A H y ) H x =(A^Hy)^{H}x =(AHy)Hx = ( λ ‾ 2 y ) H x =(\overline{\lambda}_2y)^{H}x =(λ2y)Hx = ( λ ‾ 2 y ) H x =(\overline{\lambda}_2y)^{H}x =(λ2y)Hx
= λ 2 y H x =\lambda_{2}y^{H}x =λ2yHx
定理 3.4.3 设矩阵 A = ( a i j ) n × n ∈ C n × n , λ 1 , λ 2 , . . . , λ n \boldsymbol A=(a_{ij})_{n\times n}\in\mathbb{C}^{n\times n}, \lambda_1,\lambda_2,...,\lambda_n A=(aij)n×n∈Cn×n,λ1,λ2,...,λn为 A ^ \widehat{\boldsymbol A} A 的 n n n 个特征值,则 A \boldsymbol A A 是正规矩阵 当且仅当 ∑ i = 1 n ∣ λ i ∣ 2 = ∑ i , j = 1 n ∣ a i j ∣ 2 \sum_{i=1}^n\mid\lambda_i\mid^2=\sum_{i,j=1}^n\mid a_{ij}\mid^2 ∑i=1n∣λi∣2=∑i,j=1n∣aij∣2 .
定义 3.4.5 给定矩阵
A
∈
R
n
×
n
\boldsymbol A\in\mathbb{R}^{n\times n}
A∈Rn×n 是一个正规矩阵,若存在可逆矩阵
P
∈
R
n
×
n
\boldsymbol P\in\mathbb{R}^{n\times n}
P∈Rn×n 和对角矩阵
Λ
=
diag
{
λ
1
,
λ
2
,
⋯
,
λ
n
}
∈
R
n
×
n
\boldsymbol{\Lambda}=\operatorname{diag}\{\lambda_1,\lambda_2,\cdots,\lambda_n\}\in\mathbf{R}^{n\times n}
Λ=diag{λ1,λ2,⋯,λn}∈Rn×n 使得
A
=
P
Λ
P
−
1
,
A=P\Lambda P^{-1}\:,
A=PΛP−1,
这种分解称为矩阵 A \boldsymbol A A 的一个谱分解. 其中,特征值 { λ 1 , λ 2 , ⋯ , λ n } \{\lambda_1,\lambda_2,\cdots,\lambda_n\} {λ1,λ2,⋯,λn} 也称为矩阵 A \boldsymbol A A 的谱.
设
P
=
(
a
1
,
a
2
,
⋯
,
a
n
)
,
P
−
1
=
(
β
1
,
β
2
,
⋯
,
β
n
)
T
\boldsymbol P=(\boldsymbol{a}_1,\boldsymbol{a}_2,\cdots,\boldsymbol{a}_n),\boldsymbol P^{-1}=(\boldsymbol{\beta}_1,\boldsymbol{\beta}_2,\cdots,\boldsymbol{\beta}_n)^{\mathrm{T}}
P=(a1,a2,⋯,an),P−1=(β1,β2,⋯,βn)T ,
则
a
1
,
a
2
,
⋯
,
a
n
\boldsymbol{a}_1,\boldsymbol{a}_2,\cdots,\boldsymbol{a}_n
a1,a2,⋯,an 线无,
β
1
,
β
2
,
⋯
,
β
n
\boldsymbol{\beta}_{1},\boldsymbol{\beta}_{2},\:\cdots,\boldsymbol{\beta}_{n}
β1,β2,⋯,βn也线无,且
A
α
i
=
λ
i
α
i
,
A
T
β
i
=
λ
i
β
i
(
1
⩽
i
⩽
n
,
A\boldsymbol{\alpha}_i=\lambda_i\boldsymbol{\alpha}_i,A^\mathrm{T}\boldsymbol{\beta}_i=\lambda_i\boldsymbol{\beta}_i(1\leqslant i\leqslant n,
Aαi=λiαi,ATβi=λiβi(1⩽i⩽n, 这样
A
=
P
(
λ
1
λ
2
⋱
λ
n
)
P
−
1
=
(
α
1
,
α
2
,
⋯
,
α
n
)
[
λ
1
λ
2
⋱
λ
n
]
(
β
1
T
β
2
T
⋮
β
n
T
)
=
∑
k
=
1
n
λ
i
α
i
β
i
T
.
\begin{aligned} \boldsymbol{A}& =\boldsymbol{P}\begin{pmatrix}\lambda_{1}&&&\\&\lambda_{2}&&\\&&\ddots&\\&&&\lambda_{n}\end{pmatrix}\boldsymbol{P}^{-1} =(\boldsymbol{\alpha}_1,\boldsymbol{\alpha}_2,\cdots,\boldsymbol{\alpha}_n)\begin{bmatrix}\lambda_1&&&\\&\lambda_2&&\\&&\ddots&\\&&&\lambda_n\end{bmatrix}\begin{pmatrix}\boldsymbol{\beta}_1^\mathrm{T}\\\boldsymbol{\beta}_2^\mathrm{T}\\\vdots\\\boldsymbol{\beta}_n^\mathrm{T}\end{pmatrix} \\ &=\sum_{k=1}^n\lambda_i\boldsymbol{\alpha}_i\boldsymbol{\beta}_i^\mathrm{T}. \end{aligned}
A=P
λ1λ2⋱λn
P−1=(α1,α2,⋯,αn)
λ1λ2⋱λn
β1Tβ2T⋮βnT
=k=1∑nλiαiβiT.
这是矩阵
A
\boldsymbol A
A 的谱分解的另一种表达形式. 如果记
A
i
=
α
i
β
i
T
\boldsymbol {A_i=\alpha_i\beta_i^\mathrm{T}}
Ai=αiβiT , 则可写成
A
=
∑
k
=
1
n
λ
i
A
i
.
\mathbf{A}=\sum_{k=1}^n\lambda_i\mathbf{A}_i.
A=∑k=1nλiAi.
其中, A i \boldsymbol A_i Ai 有性质:(1) A i 2 = A i ( i = 1 , 2 , ⋯ , n ) ; \boldsymbol {A_{i}^{2}=A_{i}}(i=1,2,\cdots,n)\:; Ai2=Ai(i=1,2,⋯,n); (2) A i A j = O ( i ≠ j ) ; \mathbf{A}_{i}\mathbf{A}_{j}=\boldsymbol{O}(i\neq j) ; AiAj=O(i=j); (3) ∑ i = 1 n A i = E . \sum_{i=1}^{n}\boldsymbol {A_{i}=E}. ∑i=1nAi=E.
P = ( α 1 , α 2 , ⋯ , α n ) , P − 1 = [ β 1 T β 2 T ⋮ β n T ] , 则 P − 1 P = [ β 1 T α 1 ⋯ β 1 T α n ⋮ ⋮ β n T α 1 ⋯ β n T α n ] = E , P P − 1 = α 1 β 1 T + ⋯ + α n β n T = E . 于是 β i T α i = 1 , β i T α j = 0 ( i ≠ j ) , ∑ k = 1 n α i β i T = E . 再结合 A i = α i β i T 就得到上面三个性质 . \begin{gathered} \boldsymbol P=(\boldsymbol{\alpha}_1,\boldsymbol{\alpha}_2,\cdots,\boldsymbol{\alpha}_n), \boldsymbol P^{-1}=\begin{bmatrix}\boldsymbol{\beta}_{1}^{\mathrm{T}}\\\boldsymbol{\beta}_{2}^{\mathrm{T}}\\\vdots\\\boldsymbol{\beta}_{n}^{\mathrm{T}}\end{bmatrix}, \text{则} ~\boldsymbol{P^{-1}P}=\begin{bmatrix}\boldsymbol{\beta}_1^\mathrm{T}\boldsymbol{\alpha}_1&\cdots&\boldsymbol{\beta}_1^\mathrm{T}\boldsymbol{\alpha}_n\\\vdots&&\vdots\\\boldsymbol{\beta}_n^\mathrm{T}\boldsymbol{\alpha}_1&\cdots&\boldsymbol{\beta}_n^\mathrm{T}\boldsymbol{\alpha}_n\end{bmatrix}=\boldsymbol{E},\\ \boldsymbol{P}\boldsymbol{P}^{-1}=\boldsymbol{\alpha}_1\boldsymbol{\beta}_1^\mathrm{T}+\cdots+\boldsymbol{\alpha}_n\boldsymbol{\beta}_n^\mathrm{T}=\boldsymbol{E}. ~\text{于是}~ \boldsymbol {\beta_{i}^{\mathrm{T}}\alpha_{i}=1},\quad\boldsymbol{\beta_{i}^{\mathrm{T}}\alpha_{j}=0}\quad(i\neq j),\quad\sum_{k=1}^{n}\boldsymbol{\alpha_{i}\beta_{i}^{\mathrm{T}}=E}.\\ \text{再结合 }\mathbf{A}_i=\boldsymbol{\alpha}_i\boldsymbol{\beta}_i^\mathrm{T}\text{ 就得到上面三个性质}. \end{gathered} P=(α1,α2,⋯,αn),P−1= β1Tβ2T⋮βnT ,则 P−1P= β1Tα1⋮βnTα1⋯⋯β1Tαn⋮βnTαn =E,PP−1=α1β1T+⋯+αnβnT=E. 于是 βiTαi=1,βiTαj=0(i=j),k=1∑nαiβiT=E.再结合 Ai=αiβiT 就得到上面三个性质.
例 3.4.6 设 A = [ 4 − 6 0 2 − 3 0 − 2 3 2 ] \mathbf{A}=\left[\begin{array}{ccc}4&-6&0\\2&-3&0\\-2&3&2\end{array}\right] A= 42−2−6−33002 , 求 A \mathbf{A} A 的谱分解.
先求 A \mathbf{A} A 的特征值和特征向量. ∣ λ E − A ∣ = \mid\lambda E-A\mid= ∣λE−A∣= = λ ( λ − 2 ) ( λ − 1 ) =\lambda(\lambda-2)\left(\lambda-1\right) =λ(λ−2)(λ−1) , 因此, A \mathbf{A} A 有3个不同的特征值 λ 1 = 0 , λ 2 = 1 , λ 3 = 2 \lambda_1=0,\lambda_2=1,\lambda_3=2 λ1=0,λ2=1,λ3=2 , 故 A \mathbf{A} A 可对角化,从而 A \mathbf{A} A 的谱分解一定存在.容易求出它们对应的特征向量为
p 1 = ( 3 , 2 , 0 ) T , p 2 = ( 2 , 1 , 1 ) T , p 3 = ( 0 , 0 , 1 ) T . p_{1}=(3,\:2,\:0)^{\mathrm{T}},\quad p_{2}=(2,\:1,\:1)^{\mathrm{T}},\quad p_{3}=(0,\:0,\:1)^{\mathrm{T}}. p1=(3,2,0)T,p2=(2,1,1)T,p3=(0,0,1)T.令 P = ( p 1 , p 2 , p 3 ) = [ 3 2 0 2 1 0 0 1 1 ] \boldsymbol P=(p_1,p_2,p_3)=\begin{bmatrix}3&2&0\\[0.3em]2&1&0\\[0.3em]0&1&1\end{bmatrix} P=(p1,p2,p3)= 320211001 ,显然 , P P P 可逆,且易求得 P − 1 = ( β 1 T β 2 T β 3 T ) = ( − 1 2 0 2 − 3 0 − 2 3 1 ) \boldsymbol{P}^{-1}=\begin{pmatrix}\boldsymbol{\beta}_{1}^{\mathrm{T}}\\\boldsymbol{\beta}_{2}^{\mathrm{T}}\\\boldsymbol{\beta}_{3}^{\mathrm{T}}\end{pmatrix}=\begin{pmatrix}-1&2&0\\2&-3&0\\-2&3&1\end{pmatrix} P−1= β1Tβ2Tβ3T = −12−22−33001 。
这样有
A = P ( 0 1 2 ) P − 1 = ( p 1 , p 2 , p 3 ) ( 0 1 2 ) ( β 1 T β 2 T β 3 T ) = p 2 β 2 T + 2 p 3 β 3 T , \begin{aligned} &\boldsymbol{A}=\boldsymbol{P}\begin{pmatrix}0&&\\&1&\\&&2\end{pmatrix}\boldsymbol{P}^{-1}=(\boldsymbol{p}_1,\boldsymbol{p}_2,\boldsymbol{p}_3)\begin{pmatrix}0&&\\&1&\\&&2\end{pmatrix}\begin{pmatrix}\boldsymbol{\beta}_1^\mathrm{T}\\\boldsymbol{\beta}_2^\mathrm{T}\\\boldsymbol{\beta}_3^\mathrm{T}\end{pmatrix}=p_2\beta_2^\mathrm{T}+2p_3\beta_3^\mathrm{T}, \end{aligned} A=P 012 P−1=(p1,p2,p3) 012 β1Tβ2Tβ3T =p2β2T+2p3β3T,
3.5 奇异值分解
前面已知,正规矩阵可以酉对角化,因此其对应的线性变换具有很好的性质 . 现考虑 非正规矩阵.
定义3.5.1 设 A ∈ R m × n \boldsymbol A\in\mathbb{R}^{m\times n} A∈Rm×n , 半正定矩阵 A T A \boldsymbol {A^\mathrm{T}A} ATA 的 n n n 个特征值记为 λ i , i = 1 , 2 , . . . , n \lambda_i,i=1,2,...,n λi,i=1,2,...,n , 显然 λ i ⩾ 0 \lambda_i\geqslant0 λi⩾0 . 称 λ i \lambda_i λi 的算术平方根 σ i = λ i \sigma_i=\sqrt{\lambda_i} σi=λi ( i = 1 , 2 , . . . , n ) i=1,2,...,n) i=1,2,...,n)为矩阵 A \boldsymbol A A 的 奇异值.
定理 3.5.2 (奇异值分解定理) 设矩阵
A
∈
R
m
×
n
\boldsymbol A\in\mathbb{R}^{m\times n}
A∈Rm×n 的奇异值中有
r
r
r 个不等于零,记为
σ
1
⩾
\sigma_1\geqslant
σ1⩾
σ
2
≥
⋯
≥
σ
r
>
0.
\sigma_2\geq\cdots\geq\sigma_r>0.
σ2≥⋯≥σr>0. 它们构成的
r
r
r 阶对角阵记为
D
=
diag
{
σ
1
,
σ
2
,
⋯
,
σ
r
}
D=\operatorname{diag}\{\sigma_1,\sigma_2,\cdots,\sigma_r\}
D=diag{σ1,σ2,⋯,σr} . 令
m
×
n
m\times n
m×n 阶矩阵
Σ
=
(
D
O
O
O
)
\boldsymbol{\Sigma}=\binom{\boldsymbol{D~O}}{\boldsymbol{O~O}}
Σ=(O OD O) , 则存在正交矩阵
U
∈
R
m
×
m
,
V
∈
R
n
×
n
\boldsymbol U\in\mathbb{R}^{m\times m},\:\boldsymbol V\in\mathbb{R}^{n\times n}
U∈Rm×m,V∈Rn×n ,使
A
=
U
Σ
V
T
.
A=\boldsymbol U\boldsymbol{\Sigma}\boldsymbol V^{\mathrm{T}}.
A=UΣVT.
证明 因为 A T A \boldsymbol {A^\mathrm{T}A} ATA 是 n n n 阶半正定矩阵,必存在 n n n 阶正交矩阵 V \boldsymbol V V 使
~
V T ( A T A ) V = [ λ 1 ⋱ λ r 0 ⋱ 0 ] = [ D 2 O O O ] n × n ~~~~~~~~~~~~~~~~~~~~~~~~~V^\mathrm{T}(A^\mathrm{T}A)V=\begin{bmatrix}\lambda_1&&&&&&\\&\ddots&&&&&\\&&\lambda_r&&&&\\&&&0&&&\\&&&&\ddots&\\&&&&&0\end{bmatrix}=\begin{bmatrix}D^2&O\\O&O\end{bmatrix}_{n\times n} VT(ATA)V= λ1⋱λr0⋱0 =[D2OOO]n×n
~
将 V \mathbf{V} V 分块 V = ( V 1 , V 2 ) , \mathbf V=(\mathbf V_1,\mathbf V_2)\:, V=(V1,V2), 其中 V 1 ∈ R n × r , V 2 ∈ R n × ( n − r ) \mathbf{V}_1\in\mathbf{R}^{n\times r},\mathbf{V}_2\in\mathbf{R}^{n\times(n-r)} V1∈Rn×r,V2∈Rn×(n−r) .
因为 V \mathbf{V} V 是正交阵,所以 V 1 T V 1 = E r , V 1 T V 2 = O \mathbf{V} _1^{\mathrm{T} }\mathbf{V} _1= \mathbf{E} _r, \mathbf{V} _1^{\mathrm{T} }\mathbf{V} _2= \mathbf{O} V1TV1=Er,V1TV2=O, 则 [ V 1 T V 2 T ] A T A ( V 1 , V 2 ) = [ D 2 O O O ] ~\begin{bmatrix}\boldsymbol{V}_1^\mathrm{T}\\\boldsymbol{V}_2^\mathrm{T}\end{bmatrix}\boldsymbol{A}^\mathrm{T}\boldsymbol{A}(\boldsymbol{V}_1,\boldsymbol{V}_2)=\begin{bmatrix}\boldsymbol{D}^2&\boldsymbol{O}\\\boldsymbol{O}&\boldsymbol{O}\end{bmatrix} [V1TV2T]ATA(V1,V2)=[D2OOO]
得 V 1 T A T A V 1 = D 2 , V 2 T A T A V 2 = 0 , \begin{array}{l}V_1^TA^TAV_1=D^2,\\V_2^TA^TAV_2=0,\end{array} V1TATAV1=D2,V2TATAV2=0,,即 A V 2 = 0 AV_2=0 AV2=0 .
而 A = A V V T = A ( V 1 , V 2 ) ( V 1 T V 2 T ) = A V 1 V 1 T + A V 2 V 2 T = A V 1 V 1 T = A V 1 D − 1 D V 1 T = U 1 D V 1 T A=AVV^\mathrm{T}=A(V_1,\:V_2)\begin{pmatrix}V_1^\mathrm{T}\\V_2^\mathrm{T}\end{pmatrix}=AV_1V_1^\mathrm{T}+AV_2V_2^\mathrm{T}=AV_1V_1^\mathrm{T}=AV_1D^{-1}DV_1^\mathrm{T}=U_1DV_1^\mathrm{T} A=AVVT=A(V1,V2)(V1TV2T)=AV1V1T+AV2V2T=AV1V1T=AV1D−1DV1T=U1DV1T
~
其中 U 1 = A V 1 D − 1 , U 1 ∈ R m × r U_{1}=AV_{1}D^{-1},U_{1}\in\mathbf{R}^{m\times r} U1=AV1D−1,U1∈Rm×r , 且 U 1 T U 1 = D − 1 V 1 T A T A V 1 D − 1 = D − 1 D 2 D − 1 = E r U_1^\mathrm{T}U_1=D^{-1}V_1^\mathrm{T}A^\mathrm{T}AV_1D^{-1}=D^{-1}D^2D^{-1}=E_r U1TU1=D−1V1TATAV1D−1=D−1D2D−1=Er .
将 U 1 U_1 U1 扩张成正交矩阵 U = ( U 1 , U 2 ) U=(U_1,U_2) U=(U1,U2) , 则有
U Σ V T = ( U 1 , U 2 ) ( D O O O ) ( V 1 T V 2 T ) = ( U 1 D , O ) ( V 1 T V 2 T ) = U 1 D V 1 T = A . \begin{gathered} \boldsymbol{U\Sigma}\boldsymbol{V}^{\mathrm{T}}=(\boldsymbol{U}_{1},\boldsymbol{U}_{2})\binom{\boldsymbol{D~~O}}{\boldsymbol{O~~O}} \begin{pmatrix}\boldsymbol{V}_{1}^{\mathrm{T}}\\\boldsymbol{V}_{2}^{\mathrm{T}}\end{pmatrix}\\ =(\boldsymbol{U}_{1}\boldsymbol{D}, \boldsymbol{O}) \begin{pmatrix}\boldsymbol{V}_{1}^{\mathrm{T}}\\ \boldsymbol{V}_{2}^{\mathrm{T}}\end{pmatrix} \\ =\boldsymbol{U_1DV_1^\mathrm{T}}=\boldsymbol A. \end{gathered} UΣVT=(U1,U2)(O OD O)(V1TV2T)=(U1D,O)(V1TV2T)=U1DV1T=A.