【矩阵论】3.矩阵分解

3 矩阵分解

3.1 三角分解( LU 分解)

定义 3.1.1 给定矩阵 A ∈ R n × n A\in\mathbf{R}^{n\times n} ARn×n , 若存在下三角矩阵 L ∈ R n × n L\in\mathbf{R}^{n\times n} LRn×n上三角矩阵 U ∈ R n × n U\in\mathbf{R}^{n\times n} URn×n 使得 A = L U A=LU A=LU , 这种分解称为矩阵的一个三角分解,又称 L U LU LU 分解。(Gauss消去法,待定系数法 )

定理 3.1.2 给定矩阵 A ∈ R n × n A\in\mathbf{R}^{n\times n} ARn×n , 存在单位下三角阵 L ∈ R n × n L\in\mathbf{R}^{n\times n} LRn×n 和可逆上三角阵 U ∈ R n × n U\in\mathbf{R}^{n\times n} URn×n, 使得 A = L U A=LU A=LU 的充分必要条件是 A A A各阶顺序主子阵均不为零.

       ∣ a 11 a 12 . . . a 1 , n − 1 a 21 a 22 . . . a 2 , n − 1 ⋮ ⋮ ⋮ a n − 1 , 1 a n − 1 , 2 . . . a n − 1 , n − 1 ∣ = ∣ a 11 ( 1 ) a 12 ( 1 ) ⋯ a 1 n ( 1 ) a 22 ( 2 ) a 2 n ( 2 ) ⋱ ⋮ a n − 1 , n − 1 ( n − 1 ) ∣ = a 11 ( 1 ) a 22 ( 2 ) ⋅ ⋅ ⋅ a n − 1 , n − 1 ( n − 1 ) , ~~~~~~\begin{aligned} \begin{vmatrix}a_{11}&a_{12}&...&a_{1,n-1}\\a_{21}&a_{22}&...&a_{2,n-1}\\\vdots&\vdots&&\vdots\\a_{n-1,1}&a_{n-1,2}&...&a_{n-1,n-1}\end{vmatrix}& =\begin{vmatrix}a_{11}^{(1)}&a_{12}^{(1)}&\cdots&a_{1n}^{(1)}\\&a_{22}^{(2)}&&a_{2n}^{(2)}\\&&\ddots&\vdots\\&&&a_{n-1,n-1}^{(n-1)}\end{vmatrix}=a_{11}^{(1)}a_{22}^{(2)}\cdotp\cdotp\cdotp a_{n-1,n-1}^{(n-1)}, \end{aligned}        a11a21an1,1a12a22an1,2.........a1,n1a2,n1an1,n1 = a11(1)a12(1)a22(2)a1n(1)a2n(2)an1,n1(n1) =a11(1)a22(2)⋅⋅⋅an1,n1(n1),

Doolittle 分解

A = L U A=LU A=LU , L L L单位下三角矩阵 U U U上三角矩阵。在 Gauss 消去过程中有

A = L 1 − 1 L 2 − 1 ⋅ ⋅ ⋅ L n − 1 − 1 A ( n ) . \mathbf{A}=\mathbf{L}_1^{-1}\mathbf{L}_2^{-1}\cdotp\cdotp\cdotp\mathbf{L}_{n-1}^{-1}\mathbf{A}^{(n)}. A=L11L21⋅⋅⋅Ln11A(n). L i − 1 = [ 1 ⋱ 1 l i + 1 , i 1 … ⋱ l n , i 1 ] , i = 1 , 2 , ⋯   , n − 1 \boldsymbol{L}_i^{-1}=\begin{bmatrix}1&&&&&\\&\ddots&&&&\\&&1&&&\\&&l_{i+1,i}&1&&\\&&\dots&&\ddots&\\&&l_{n,i}&&&1\end{bmatrix},\quad i=1,2,\cdots,n-1 Li1= 11li+1,iln,i11 ,i=1,2,,n1

L = L 1 − 1 L 2 − 1 . . . L n − 1 − 1 L=L_1^{-1}L_2^{-1}...L_{n-1}^{-1} L=L11L21...Ln11 是单位下三角矩阵, U = A ( n ) U=A^{(n)} U=A(n) 是一个上三角矩阵,则有 A = L U A=LU A=LU .

Crout 分解 A = L U A=LU A=LU , 这里 L L L下三角矩阵 U U U单位上三角矩阵.

LDU 分解 A = L D U A=LDU A=LDU , 这里 L L L单位下三角矩阵 D D D对角矩阵 U U U单位上三角矩阵.

以上三种分解统称为矩阵的三角分解,或者 L U LU LU 分解。如果不作特殊说明,一般所说的 L U LU LU 分解就是指 Doolittle 三角分解。实际上,尽管矩阵的三角分解不唯一,但是矩阵的这三种三角分解具有唯一性。

定理 3.1.3 A A A n n n 阶矩阵,且所有顺序主子式均不等于零,则 A A A 可分解为一个单位下三角矩阵 L L L 与一个上三角矩阵 U U U 的乘积,即 A = L U A=LU A=LU ,且分解是唯一的. ( L 2 − 1 L 1 = U 2 U 1 − 1 = E L_{2}^{-1}L_{1}=U_{2}U_{1}^{-1}=E L21L1=U2U11=E )

定理 3.1.4 如果矩阵 A A A 的所有顺序主子式均不等于零,则
(1) A A A 有唯一的三角分解 : A = L D U :A=LDU :A=LDU ;(2) A A A 有唯一的 Crout 分解 : A = L U :A=LU :A=LU

Cholesky 分解(对称正定矩阵)

A A A 为对称正定矩阵时,它的所有顺序主子式都大于零,故由定理3.4可知存在唯一的 L D U LDU LDU 分解. 由于对称正定的特殊性,可以得到一个性质更好的三角分解. (待定系数法 求 Cholesky 分解)

定理 3.1.5 A ∈ R n × n A\in\mathbf{R}^{n\times n} ARn×n 为对称正定矩阵,则存在唯一对角元素均为正的下三角矩阵 G G G , 使得 A = G G T A=GG^\mathrm{T} A=GGT , 这样的分解称为对称正定矩阵的 Cholesky 分解.

证明 根据定理3.4,由 A A A 是对称正定矩阵,存在唯一的 L D U LDU LDU 分解,即 A = L D U A=LDU A=LDU。其中 L L L 是单位下三角矩阵, D D D 是非奇异的对角矩阵, U U U 是单位上三角矩阵,
A A A 的对称性可得 L D U = U T D L T LDU=U^{\mathrm{T}}DL^{\mathrm{T}} LDU=UTDLT ,按照分解的唯一性可得 L = U T L=U^{\mathrm{T}} L=UT , 从而 A = A= A= L D L T   . \boldsymbol{LDL^T}\:. LDLT.
D = diag ⁡ ( d 1 , d 2 , . . . , d n ) , d i ≠ 0 , i = 1 , 2 , . . . , n . \boldsymbol{D}=\operatorname{diag}(d_1,d_2,...,d_n),d_i\neq0,i=1,2,...,n. D=diag(d1,d2,...,dn),di=0,i=1,2,...,n. 下证 D D D 的对角元素均为正,即 d i > 0   . d_i>0\:. di>0.
由于 L L L 是单位下三角矩阵,所以 L T L^\mathrm{T} LT 是单位上三角矩阵,当然也是非奇异矩阵。故对单位坐标向量 e i = ( 0 , . . . , 0 , 1 , 0 , . . . , 0 ) T e_i=(0,...,0,1,0,...,0)^T ei=(0,...,0,1,0,...,0)T , 存在非零向量 x i x_i xi , 使得 L T x i = e i , i = 1 ,   2 ,   ⋯   ,   n . L^{\mathrm{T}}x_{i}=e_{i},\quad i=1,\:2,\:\cdots,\:n. LTxi=ei,i=1,2,,n.
x i T A x i = x i T ( L D L T ) x i = ( L T x i ) T D ( L T x i ) = e i T D e i = d i   . x_{i}^{\mathrm{T}}Ax_{i}=x_{i}^{\mathrm{T}}(LDL^{\mathrm{T}})x_{i}=(L^{\mathrm{T}}x_{i})^{\mathrm{T}}D(L^{\mathrm{T}}x_{i})=e_{i}^{\mathrm{T}}De_{i}=d_{i}\:. xiTAxi=xiT(LDLT)xi=(LTxi)TD(LTxi)=eiTDei=di. x i T A x i > 0 x_i^\mathrm{T}Ax_i>0 xiTAxi>0 , 从而 d i > 0 , i = 1 , 2 , . . . , n d_i>0,i=1,2,...,n di>0,i=1,2,...,n . 这就证明了 D D D 的对角元素都为正。
D 1 / 2 = d i a g ( d 1 , d 2 , ⋯   , d n ) \mathbf{D}^{1/2}=\mathrm{diag}(\sqrt{d_1},\sqrt{d_2},\cdots,\sqrt{d_n}) D1/2=diag(d1 ,d2 ,,dn ) ,则有
A = L D L T = L D 1 / 2 D 1 / 2 L T = ( L D 1 / 2 ) ( L D 1 / 2 ) T . \mathbf{A}=\mathbf{LDL}^\mathrm{T}=\mathbf{LD}^{1/2}\mathbf{D}^{1/2}\mathbf{L}^\mathrm{T}=(\mathbf{LD}^{1/2})(\mathbf{LD}^{1/2})^\mathrm{T}. A=LDLT=LD1/2D1/2LT=(LD1/2)(LD1/2)T. G = L D 1 / 2 G=LD^{1/2} G=LD1/2 , 则有 A = G G T A=GG^{\mathrm{T}} A=GGT ,其中 L L L 是对角元大于零的下三角矩阵. 易证这个三角分解也是唯一的。

3.2 正交三角分解(QR分解)

首先回顾一下正交矩阵的概念和性质。
定义 3.2.1 若矩阵 Q ∈ R n × n Q\in\mathbf{R}^{n\times n} QRn×n , 且满足 Q Q T = Q T Q = E QQ^\mathrm{T}=Q^\mathrm{T}Q=E QQT=QTQ=E , 就称矩阵 Q Q Q 为正交矩阵。
正交矩阵的性质: ( 1 )   Q − 1 = Q T   ; (1)\:Q^{-1}=Q^{\mathrm{T}}\:; (1)Q1=QT; ( 2 )   det ⁡ ( Q ) = ± 1   ; (2)\:\det(Q)=\pm1\:; (2)det(Q)=±1; ( 3 ) Q x (3) Qx (3)Qx 的长度与 x x x 的长度相等.
下面介绍几类特殊的正交矩阵.

  1. 单位矩阵 E E E 和 置换矩阵 P i j P_{ij} Pij (将单位矩阵的任意两行(列)交换得到的矩阵)
    任意个置换矩阵的乘积仍然是置换矩阵.
  2. 旋转矩阵 [ cos ⁡ θ sin ⁡ θ − sin ⁡ θ cos ⁡ θ ] \begin{bmatrix}\cos\theta&\sin\theta\\-\sin\theta&\cos\theta\end{bmatrix} [cosθsinθsinθcosθ] 。二维平面中的一个向量用极坐标表示为 w = ( r cos ⁡ ϕ w=(r\cos\phi w=(rcosϕ, r sin ⁡ ϕ ) T r\sin\phi)^{\mathrm{T}} rsinϕ)T,那么 G w = [ cos ⁡ θ sin ⁡ θ − sin ⁡ θ cos ⁡ θ ] ( r cos ⁡ ϕ r sin ⁡ ϕ ) = ( r cos ⁡ ( θ + ϕ ) r sin ⁡ ( θ + ϕ ) ) , Gw=\begin{bmatrix}\cos\theta&\sin\theta\\-\sin\theta&\cos\theta\end{bmatrix}\binom{r\cos\phi}{r\sin\phi}=\binom{r\cos(\theta+\phi)}{r\sin(\theta+\phi)}, Gw=[cosθsinθsinθcosθ](rsinϕrcosϕ)=(rsin(θ+ϕ)rcos(θ+ϕ)), G w Gw Gw 表示 将向量 w w w 逆时针旋转 θ \theta θ 角所得到的向量.
    推广到 n × n n{\times}n n×n 的情形,形如 G ( i , j , θ ) = [ 1 ⋱ cos ⁡ θ sin ⁡ θ ⋱ − sin ⁡ θ cos ⁡ θ ⋱ 1 ] j i G(i,j,\theta)=\begin{bmatrix}1\\&\ddots\\&&\cos\theta&&\sin\theta&&\\&&&\ddots&&\\&&-\sin\theta&&\cos\theta&\\&&&&&\ddots\\&&&&&&1\end{bmatrix}\\^i_j G(i,j,θ)= 1cosθsinθsinθcosθ1 ji
    的矩阵称为 Givens 矩阵Givens 变换,或称(平面)旋转矩阵(旋转变换),其中 θ \theta θ 为旋转的角度 . 显然, G ( i , j , θ ) G(i,j,\theta) G(i,j,θ)也是正交矩阵.
  3. 反射矩阵( Householder 变换) w ∈ R n w\in\mathbb{R}^n wRn , 且 ∥ w ∥ 2 = 1 \|w\|_2=1 w2=1 , 则 P = I − 2 w w T P=I-2ww^\mathrm{T} P=I2wwT 称为 Householder 变换,或者 Householder 矩阵. Householder 矩阵有如下性质:
    (1) P T = P P^{\mathrm{T}}=P PT=P , 即 P P P 是对称阵;
    (2) P P T = P 2 = I − 2 w w T − 2 w w T + 4 w ( w T w ) w T = I PP^T=P^2=I-2ww^T-2ww^T+4w(w^Tw)w^T=I PPT=P2=I2wwT2wwT+4w(wTw)wT=I , 即 P P P 是正交阵,
    (3) 如图 3-1 所示,设 w w w R 3 \mathbf{R}^3 R3 上的一个单位向量,并设 S S S 为过原点且与 w w w 垂直的平面,则一切 v ∈ R 3 v\in\mathbf{R}^3 vR3 可分解成 v = v 1 + v 2 v=v_1+v_2 v=v1+v2 , 其中 v 1 ∈ S , v 2 ⊥ S . v_1\in S,v_2\perp S . v1S,v2S. 不难验证 P v 1 = v 1 Pv_1=v_1 Pv1=v1 P v 2 = − v 2 Pv_2=-v_{2} Pv2=v2,所以 P v = v 1 − v 2 Pv=v_{1}-v_{2} Pv=v1v2 .图3-1
    这样, v v v 经变换后的象 P v Pv Pv v v v 关于 S 对称的向量 . 所以,Householder 变换(图 3-1)又称镜面反射变换,Householder 矩阵也称初等反射矩阵.
      ~  
    应用:对 x ≠ 0 x\neq0 x=0 , 求 Householder 矩阵 P P P , 使得 P x = k e 1 Px=ke_1 Px=ke1.
    其中 e 1 = ( 1 , 0 , . . . , 0 ) T . e_1=(1,0,...,0)^{\mathrm{T}}. e1=(1,0,...,0)T. 由正交矩阵的性质可知 ∥ P x ∥ 2 = ∥ k e 1 ∥ 2 = ∥ x ∥ 2 \parallel Px\parallel_2=\parallel ke_1\parallel_2=\parallel x\parallel_2 Px2=∥ke12=∥x2 , 即 k = k= k= ± ∥ x ∥ 2 \pm\parallel x\parallel_2 ±x2 . 由上面所讨论的 P P P 的构造,有 u = x − k e 1 , w = u ∥ u ∥ 2 . u=x-ke_1,\quad w=\frac u{\parallel u\parallel_2}. u=xke1,w=u2u. x = ( x 1 , . . . , x n ) T x=(x_1,...,x_n)^\mathrm{T} x=(x1,...,xn)T , 为了使 x − k e 1 x-ke_1 xke1 计算时不损失有效数位(一正一负可能消掉),取
    k = − sign ⁡ ( x 1 ) ∥ x ∥ 2 , sign ⁡ ( x 1 ) = { 1 , 当 x 1 ⩾ 0 , − 1 , 当 x 1 < 0 , k=-\operatorname{sign}(x_1)\parallel x\parallel_2,\quad\operatorname{sign}(x_1)=\begin{cases}\quad1,&\text{当}x_1\geqslant0,\\-1,&\text{当}x_1<0,\end{cases} k=sign(x1)x2,sign(x1)={1,1,x10,x1<0, u = ( x 1 + s i g n ( x 1 ) ∥ x ∥ 2 ,   x 2 ,   ⋯   ,   x n ) T \boldsymbol{u}=(x_1+\mathrm{sign}(x_1)\parallel\boldsymbol{x}\parallel_2,\:x_2,\:\cdots,\:x_n)^\mathrm{T} u=(x1+sign(x1)x2,x2,,xn)T,从而 P = I − β u   u T P=I-\beta u\:u^\mathrm{T} P=IβuuT ,其中
    β = 2 ( ∥ u ∥ 2 2 ) − 1 = 2 ( ∥ x ∥ 2 ( ∥ x ∥ 2 + ∣ x 1 ∣ ) ) − 1 . \beta=2(\parallel\boldsymbol{u}\parallel_2^2)^{-1}=2(\parallel\boldsymbol{x}\parallel_2(\parallel\boldsymbol{x}\parallel_2+| x_1|))^{-1}. β=2(u22)1=2(x2(x2+x1))1.

定义 3.2.1 给定矩阵 A ∈ R n × n A\in\mathbf{R}^{n\times n} ARn×n , 若存在 正交矩阵 Q ∈ R n × n Q\in\mathbf{R}^{n\times n} QRn×n上三角矩阵 R ∈ R n × n R\in\mathbf{R}^{n\times n} RRn×n 使得 A = Q R A=QR A=QR , 这种分解称为矩阵的一个正交三角分解,又称 Q R QR QR 分解 .

定理 3.2.2 A ∈ R n × n A\in\mathbf{R}^{n\times n} ARn×n , 则存在正交阵 Q Q Q , 使得 A = Q R A=QR A=QR , 其中 R R R 为上三角阵 .

证明 构造性证明 . 首先,考虑 A A A 的第一列 a 1 = ( a 11 , a 21 , . . . , a n 1 ) T a_1=(a_{11},a_{21},...,a_{n1})^T a1=(a11,a21,...,an1)T , 可找到 Householder 矩阵 P 1 P_1 P1 , 使得 P 1 a 1 P_1a_1 P1a1 的元素除了第 1 个以外都为零. 同理,找到 P 2 P_{2} P2 使得 P 2 P 1 A P_{2}P_{1}A P2P1A 的第 2 列对角元以下元素为零,而第一列对角元以下元素与 P 1 A P_1\mathbf{A} P1A 一样是零.依次这样下去,可以得到 P n − 1 P n − 2 . . . P 1 A = R   , P_{n-1}P_{n-2}...P_1A=R\:, Pn1Pn2...P1A=R, 其中 R R R 为上三角矩阵, Q T = P n − 1 P n − 2 . . . P 1 Q^\mathrm{T}=P_{n-1}P_{n-2}...P_1 QT=Pn1Pn2...P1 为正交阵,定理证毕.

该定理保证了 A A A 可分解为 A = Q R A=QR A=QR , 若 A A A 非奇异,则 R R R 也非奇异 . 如果不规定 R R R 的对角元为正,则分解不是唯一的.

定理 3.2.3 A ∈ R n × n A\in\mathbf{R}^{n\times n} ARn×n , 且 A A A 非奇异,则存在正交阵 Q Q Q 与上三角阵 R R R , 使得 A = Q R , A=QR, A=QR, 且当 R R R 的对角元均为正时,分解是唯一的.

另外,注意到 A T A = ( Q R ) T Q R = R T Q T Q R = R T R A^{\mathrm{T}}A=(QR)^{\mathrm{T}}QR=R^{\mathrm{T}}Q^{\mathrm{T}}QR=R^{\mathrm{T}}R ATA=(QR)TQR=RTQTQR=RTR,所以,矩阵 A A A 正交三角分解中的 R R R 恰好是矩阵 A T A A^\mathrm{T}A ATA 的 Cholesky 分解中的上三角矩阵.

除了用 Householder 变换和 Givens 变换,还可以用 Gram-Schmidt 正交化 过程 计算矩阵 A 的正交三角分解.
设有3个 n n n 阶向量 α 1 , α 2 , α 3 \alpha_1,\alpha_2,\alpha_3 α1,α2,α3线性无关,令

                                                      β 1 = α 1 β 2 = α 2 − ( α 2 , β 1 ) ∣ β 1 ∣ 2 β 1 β 3 = α 3 − ( α 3 , β 2 ) ∣ β 2 ∣ 2 β 2 − ( α 3 , β 1 ) ∣ β 1 ∣ 2 β 1 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~\begin{aligned} &\beta_1=\alpha_1 \\ & \beta_2=\alpha_2-\frac{(\alpha_2,\beta_1)}{|\beta_1|^2}\beta_1 \\ & \beta_{3}=\alpha_{3}-\frac{(\alpha_{3},\beta_{2})}{|\beta_{2}|^{2}}\beta_{2}-\frac{(\alpha_{3},\beta_{1})}{|\beta_{1}|^{2}}\beta_{1} \\ \end{aligned}                                                      β1=α1β2=α2β12(α2,β1)β1β3=α3β22(α3,β2)β2β12(α3,β1)β1
用 Schmidt 正交化方法可构造 Q = ( β 1 ∣ β 1 ∣ , β 2 ∣ β 2 ∣ , β 3 ∣ β 3 ∣ ) Q=(\frac{\beta_1}{|\beta_1|},\frac{\beta_2}{|\beta_2|},\frac{\beta_3}{|\beta_3|}) Q=(β1β1,β2β2,β3β3) , 可知 Q H Q = I Q^HQ=I QHQ=I 。而 R = Q H A R=Q^HA R=QHA

3.3 满秩分解

如果矩阵 A \mathbf A A 的行(列)向量组线性无关,则称 A A A 为行(列)满秩矩阵.

定理 3.3.1 A ∈ R m × n \mathbf A\in\mathbb{R}^{m\times n} ARm×n r a n k ( A ) = r ⩽ min ⁡ { m , n } \mathrm{rank}(\mathbf A)=r\leqslant\min\{m,n\} rank(A)=rmin{m,n} , 则可将 A \mathbf A A 作满秩分解 A = C D \mathbf {A=CD} A=CD其中, C ∈ R m × r , D ∈ R r × n   \mathbf C\in\mathbb{R}^{m\times r},\mathbf D\in\mathbb{R}^{r\times n}\: CRm×r,DRr×n, 且 r a n k ( C ) = r a n k ( D ) = r   . \mathrm{rank}(\mathbf{C})=\mathrm{rank}(\mathbf{D})=r\:. rank(C)=rank(D)=r.

证明 因为 r a n k ( A ) = r \mathrm{rank}(\mathbf A)=r rank(A)=r , 所以存在 m m m 阶可逆阵 P P P n n n 阶置换阵 Q Q Q , 使得 A = P ( E r O O O ) Q T . A=P\begin{pmatrix}\mathbf{E}_r&\mathbf{O}\\\mathbf{O}&\mathbf{O}\end{pmatrix}Q^\mathrm{T}. A=P(ErOOO)QT.
P = ( P 1 , P 2 ) P=(P_1,P_2) P=(P1,P2) , 其中 P 1 P_1 P1 m × r m{\times}r m×r 列满秩阵,这样
A = ( P 1 ,   P 2 ) ( E r O O O ) Q T = ( P 1 ,   O ) Q T = P 1 ( E r ,   O ) Q T , \mathbf{A}=(\mathbf{P}_1,\:\mathbf{P}_2)\begin{pmatrix}\mathbf{E}_r&\mathbf{O}\\\mathbf{O}&\mathbf{O}\end{pmatrix}\mathbf{Q}^\mathrm{T}=(\mathbf{P}_1,\:\mathbf{O})\mathbf{Q}^\mathrm{T}=\mathbf{P}_1(\mathbf{E}_r,\:\mathbf{O})\mathbf{Q}^\mathrm{T}, A=(P1,P2)(ErOOO)QT=(P1,O)QT=P1(Er,O)QT,显然,( E r , B ) Q T E_r,B)Q^\mathrm{T} Er,B)QT 是行满秩的 r × n r{\times}n r×n 阵 . 令 C = P 1 , D = ( E r , B ) Q T \mathbf C={\mathbf{P}}_1,\mathbf D=(\mathbf E_r,\mathbf B)\mathbf Q^\mathrm{T} C=P1,D=(Er,B)QT , 即得所证。

C = ( c 1 , c 2 , ⋯   , c r ) , D = ( d 1 , d 2 , ⋯   , d r ) C=(c_1,c_2,\cdots,c_r),D=(d_1,d_2,\cdots,d_r) C=(c1,c2,,cr),D=(d1,d2,,dr) , 则 A = ( c 1 , c 2 , ⋯   , c r ) ( d 1 T d 2 T ⋮ d r T ) = ∑ i = 1 r c i d i T , \mathbf A=(c_1,c_2,\cdots,c_r)\begin{pmatrix}d_1^\mathrm{T}\\d_2^\mathrm{T}\\\vdots\\d_r^\mathrm{T}\end{pmatrix}=\sum_{i=1}^rc_id_i^\mathrm{T}, A=(c1,c2,,cr) d1Td2TdrT =i=1rcidiT,
这也是 A \mathbf A A 的满秩分解的一种表示形式.

例 3.3.2 A = ( α 1 , α 2 , α 3 , α 4 , α 5 ) = [ 2 1 6 1 0 3 2 10 1 0 2 3 10 − 1 3 4 4 16 0 1 ] \begin{aligned}&A=(\boldsymbol{\alpha}_1,\boldsymbol{\alpha}_2,\boldsymbol{\alpha}_3,\boldsymbol{\alpha}_4,\boldsymbol{\alpha}_5)=\begin{bmatrix}2&1&6&1&0\\3&2&10&1&0\\2&3&10&-1&3\\4&4&16&0&1\end{bmatrix}\end{aligned} A=(α1,α2,α3,α4,α5)= 23241234610101611100031 ,求矩阵 A A A 的满秩分解 .
解 先用行初等变换把矩阵 A A A 化为简化阶梯形 ∣ 1 0 2 1 0 0 1 2 − 1 0 0 0 0 0 1 0 0 0 0 0 ∣ = ( β 1 , β 2 , β 3 , β 4 , β 5 ) = ( D O ) \begin{vmatrix}1&0&2&1&0\\0&1&2&-1&0\\0&0&0&0&1\\0&0&0&0&0\\\end{vmatrix}=(\boldsymbol{\beta}_1,\boldsymbol{\beta}_2,\boldsymbol{\beta}_3,\boldsymbol{\beta}_4,\boldsymbol{\beta}_5)=\begin{pmatrix}\boldsymbol{D}\\\boldsymbol{O}\end{pmatrix} 10000100220011000010 =(β1,β2,β3,β4,β5)=(DO) , 其中, D = [ 1 0 2 1 0 0 1 2 − 1 0 0 0 0 0 1 ] \boldsymbol{D}=\begin{bmatrix}1&0&2&1&0\\0&1&2&-1&0\\0&0&0&0&1\end{bmatrix} D= 100010220110001 3 × 5 3×5 3×5 行满秩阵.显然 β 1 , β 2 , β 5 \beta_1,\beta_2,\beta_5 β1,β2,β5 线性无关,且 p 3 = 2 β 1 + 2 β 2 , β 4 = β 1 − β 2 p_3=2\boldsymbol{\beta}_1+2\boldsymbol{\beta}_2,\boldsymbol{\beta}_4=\boldsymbol{\beta}_1-\boldsymbol{\beta}_2 p3=2β1+2β2,β4=β1β2 .由于行初等变换保持矩阵列向量组的线性组合关系,因此 α 1 , α 2 , α 5 \alpha_1,\alpha_2,\alpha_5 α1,α2,α5 线性无关,且 α 3 = 2 α 1 + 2 α 2 , α 4 = α 1 − α 2 \boldsymbol{\alpha}_3=2\boldsymbol{\alpha}_1+2\boldsymbol{\alpha}_2,\boldsymbol{\alpha}_4=\boldsymbol{\alpha}_1-\boldsymbol{\alpha}_2 α3=2α1+2α2,α4=α1α2. 取 C = ( α 1 , α 2 , α 5 ) = ∣ 2 1 0 3 2 0 2 3 3 4 4 1 ∣ \boldsymbol C=(\boldsymbol{\alpha}_1,\boldsymbol{\alpha}_2,\boldsymbol{\alpha}_5)=\begin{vmatrix}2&1&0\\3&2&0\\2&3&3\\4&4&1\end{vmatrix} C=(α1,α2,α5)= 232412340031 , 显然 C C C 4 × 3 4×3 4×3 列满秩阵,
且满足 C D = ( α 1   ,   α 2   ,   α 5   )   [ 1 0 2 1 0 0 1 2 − 1 0 0 0 0 0 1 ] = ( α 1 , α 2 , 2 α 1 + 2 α 2 , α 1 − α 2 , α 5 ) = ( α 1 , α 2 , α 3 , α 4 , α 5 ) = A \begin{aligned} \boldsymbol{CD} &=(\boldsymbol{\alpha}_{1}\:,\:\boldsymbol{\alpha}_{2}\:,\:\boldsymbol{\alpha}_{5}\:)\:\begin{bmatrix}1&0&2&1&0\\0&1&2&-1&0\\0&0&0&0&1\end{bmatrix} \\ &=(\alpha_1,\alpha_2,2\alpha_1+2\alpha_2,\alpha_1-\alpha_2,\alpha_5) \\ &=(\alpha_1,\alpha_2,\alpha_3,\alpha_4,\alpha_5)\\ &=\mathbf{A} \end{aligned} CD=(α1,α2,α5) 100010220110001 =(α1,α2,2α1+2α2,α1α2,α5)=(α1,α2,α3,α4,α5)=A

进一步有
定理 3.3.3 (正交满秩分解定理) A \boldsymbol A A m × n m\times n m×n 阶实矩阵, A \boldsymbol A A 的秩为 r r r , 则存在 m × r m\times r m×r 列正交矩阵 Q \boldsymbol Q Q 和行满秩的 r × n r\times n r×n R \boldsymbol R R , 使 A = Q R \boldsymbol {A=QR} A=QR . 其中, Q \boldsymbol Q Q 列正交的含义为 Q T Q = E r . \boldsymbol {Q^\mathrm{T}Q=E_r}. QTQ=Er.

证明 由定理 3.3.1 知存在列满秩的 m × r m\times r m×r C \boldsymbol C C 和行满秩的 r × n r\times n r×n D \boldsymbol D D , 使 A = C D \boldsymbol {A=CD} A=CD .
于是 C T C \boldsymbol {C^\mathrm{T}C} CTC 是秩为 r r r r r r 阶对称方阵,且易证 C T C \boldsymbol {C^\mathrm{T}C} CTC 是正定阵,这样存在 r r r 阶对称正定阵 S \boldsymbol S S , 使 C T C = S 2 \boldsymbol {C^{\mathrm{T}}C=S^{2}} CTC=S2 ,
( C S − 1 ) T ( C S − 1 ) = S − 1 C T C S − 1 = S − 1 S 2 S − 1 = E r   . \boldsymbol {(CS^{-1})^{\mathrm{T}}(CS^{-1})=S^{-1}C^{\mathrm{T}}CS^{-1}=S^{-1}S^{2}S^{-1}=E_{r}}\:. (CS1)T(CS1)=S1CTCS1=S1S2S1=Er.
Q = C S − 1 , R = S D \boldsymbol {Q=CS^{-1},R=SD} Q=CS1,R=SD , 则 Q \boldsymbol Q Q m × r m\times r m×r 列正交阵且 R \boldsymbol R R 是行满秩的 r × n r\times n r×n 阵,显然有 Q R = C S − 1 S D = C D = A   . \boldsymbol {QR=CS^{-1}SD=CD=A}\:. QR=CS1SD=CD=A.

3.4 谱分解

矩阵的谱分解仅对某一类特殊的矩阵讨论。通常将可以酉对角化的矩阵称为正规矩阵,即有下面的定义.

定义 3.4.1 设矩阵 A ∈ C n × n \boldsymbol A\in\mathbb{C}^{n\times n} ACn×n , 若 A A H = A H A \boldsymbol{AA^{\mathrm{H}}=A^{\mathrm{H}}A} AAH=AHA , 则称 A \boldsymbol A A正规矩阵.

实对称矩阵、实反对称矩阵、正交矩阵、Hermite 矩阵、反 Hermite 矩阵、西矩阵都是正规矩阵。另外,若 A \boldsymbol A A 为正规矩阵,则与 A \boldsymbol A A 酉相似的矩阵仍为正规矩阵.

正规矩阵具有许多好的数学特性.

定理 3.4.2 设矩阵 A ∈ C n × n \boldsymbol A\in\mathbb{C}^{n\times n} ACn×n ,则 A \boldsymbol A A 是正规矩阵当且仅当 A \boldsymbol A A n n n 个两两正交的单位特征向量。

证 首先 A X = λ 1 X AX= \lambda _{1}X AX=λ1X 可得 A H X = λ ‾ 1 X A^{H}X= \overline {\lambda }_{1}X AHX=λ1X.
引理1: A X = 0 ⇔ ∣ ∣ A X ∣ ∣ = 0 ⇔ X H A A H X = 0 ⇔ A H X = 0 AX=0\Leftrightarrow||AX||=0\Leftrightarrow X^{H}AA^{H}X=0\Leftrightarrow A^{H}X=0 AX=0∣∣AX∣∣=0XHAAHX=0AHX=0
引理2:若 A A A 正规 A X = λ X ⇒ A H X = λ ‾ X AX=\lambda X\Rightarrow A^{H}X=\overline{\lambda}X AX=λXAHX=λX
        ~~~~~~~        只 需 证 ( A − λ I ) H X = 0 ( A- \lambda I) ^HX= 0 (AλI)HX=0,
        ~~~~~~~         ( A − λ I ) X = 0 ⇒ ( ( A − λ I ) X ) H ( A − λ I ) X = 0 ⇒ X H ( A − λ I ) H ( A − λ I ) X = 0 ( A- \lambda I) X= 0\Rightarrow\left((A-\lambda I)X\right)^H(A-\lambda I)X=0\Rightarrow X^H(A-\lambda I)^H(A-\lambda I)X=0 (AλI)X=0((AλI)X)H(AλI)X=0XH(AλI)H(AλI)X=0
        ~~~~~~~         由于 A − λ I A-\lambda I AλI 正规, ( A − λ I ) H ( A − λ I ) = ( A − λ I ) ( A − λ I ) H ( A- \lambda I) ^H( A- \lambda I) = ( A- \lambda I) ( A- \lambda I) ^H (AλI)H(AλI)=(AλI)(AλI)H
        ~~~~~~~         即有 X H ( ( A − λ I ) H ) H ( A − λ I ) H X = 0 X^H((A-\lambda I)^H)^H(A-\lambda I)^HX=0 XH((AλI)H)H(AλI)HX=0
        ~~~~~~~         ⇒ ( ( A − λ I ) H X ) H ( A − λ I ) H X = ∣ ( A − λ I ) H X ∣ 2 = 0 \Rightarrow((A-\lambda I)^HX)^H(A-\lambda I)^HX=|(A-\lambda I)^HX|^2=0 ((AλI)HX)H(AλI)HX=(AλI)HX2=0
        ~~~~~~~         ⇒ ( A − λ I ) H X = 0 ⇒ ( A H − λ ‾ I ) X = 0 ⇒ A H X = λ ‾ X \Rightarrow(A-\lambda I)^HX=0\Rightarrow(A^H-\overline{\lambda}I)X=0\Rightarrow A^HX=\overline{\lambda}X (AλI)HX=0(AHλI)X=0AHX=λX
        ~~~~~~~         故结论得证,若 A A A 正规,则 A X = λ X ⟺ A H X = λ ‾ X AX=\lambda X\Longleftrightarrow A^HX=\overline{\lambda}X AX=λXAHX=λX
        ~~~~~~~         其中,若 λ ( A ) = { λ 1 , ⋯   , λ n } \lambda(A)=\{\lambda_1,\cdots,\lambda_n\} λ(A)={λ1,,λn},则 λ ( A H ) = { λ 1 ‾ , ⋯   , λ n ‾ } \lambda(A^H)=\{\overline{\lambda_1},\cdots,\overline{\lambda_n}\} λ(AH)={λ1,,λn}
下证 A x = λ 1 x , A y = λ 2 y Ax=\lambda_{1}x,Ay=\lambda_{2}y Ax=λ1x,Ay=λ2y x H y = 0 x^{H}y=0 xHy=0
y H A x = y H λ 1 x = λ 1 y H x y^{H}Ax=y^{H}\lambda_1x=\lambda_1y^{H}x yHAx=yHλ1x=λ1yHx
= ( A H y ) H x =(A^Hy)^{H}x =(AHy)Hx = ( λ ‾ 2 y ) H x =(\overline{\lambda}_2y)^{H}x =(λ2y)Hx = ( λ ‾ 2 y ) H x =(\overline{\lambda}_2y)^{H}x =(λ2y)Hx
= λ 2 y H x =\lambda_{2}y^{H}x =λ2yHx

定理 3.4.3 设矩阵 A = ( a i j ) n × n ∈ C n × n , λ 1 , λ 2 , . . . , λ n \boldsymbol A=(a_{ij})_{n\times n}\in\mathbb{C}^{n\times n}, \lambda_1,\lambda_2,...,\lambda_n A=(aij)n×nCn×n,λ1,λ2,...,λn A ^ \widehat{\boldsymbol A} A n n n 个特征值,则 A \boldsymbol A A 是正规矩阵 当且仅当 ∑ i = 1 n ∣ λ i ∣ 2 = ∑ i , j = 1 n ∣ a i j ∣ 2 \sum_{i=1}^n\mid\lambda_i\mid^2=\sum_{i,j=1}^n\mid a_{ij}\mid^2 i=1nλi2=i,j=1naij2 .

定义 3.4.5 给定矩阵 A ∈ R n × n \boldsymbol A\in\mathbb{R}^{n\times n} ARn×n 是一个正规矩阵,若存在可逆矩阵 P ∈ R n × n \boldsymbol P\in\mathbb{R}^{n\times n} PRn×n 和对角矩阵 Λ = diag ⁡ { λ 1 , λ 2 , ⋯   , λ n } ∈ R n × n \boldsymbol{\Lambda}=\operatorname{diag}\{\lambda_1,\lambda_2,\cdots,\lambda_n\}\in\mathbf{R}^{n\times n} Λ=diag{λ1,λ2,,λn}Rn×n 使得
A = P Λ P − 1   , A=P\Lambda P^{-1}\:, A=PΛP1,

这种分解称为矩阵 A \boldsymbol A A 的一个谱分解. 其中,特征值 { λ 1 , λ 2 , ⋯   , λ n } \{\lambda_1,\lambda_2,\cdots,\lambda_n\} {λ1,λ2,,λn} 也称为矩阵 A \boldsymbol A A 的谱.

P = ( a 1 , a 2 , ⋯   , a n ) , P − 1 = ( β 1 , β 2 , ⋯   , β n ) T \boldsymbol P=(\boldsymbol{a}_1,\boldsymbol{a}_2,\cdots,\boldsymbol{a}_n),\boldsymbol P^{-1}=(\boldsymbol{\beta}_1,\boldsymbol{\beta}_2,\cdots,\boldsymbol{\beta}_n)^{\mathrm{T}} P=(a1,a2,,an),P1=(β1,β2,,βn)T ,
a 1 , a 2 , ⋯   , a n \boldsymbol{a}_1,\boldsymbol{a}_2,\cdots,\boldsymbol{a}_n a1,a2,,an 线无, β 1 , β 2 ,   ⋯   , β n \boldsymbol{\beta}_{1},\boldsymbol{\beta}_{2},\:\cdots,\boldsymbol{\beta}_{n} β1,β2,,βn也线无,且 A α i = λ i α i , A T β i = λ i β i ( 1 ⩽ i ⩽ n , A\boldsymbol{\alpha}_i=\lambda_i\boldsymbol{\alpha}_i,A^\mathrm{T}\boldsymbol{\beta}_i=\lambda_i\boldsymbol{\beta}_i(1\leqslant i\leqslant n, Aαi=λiαi,ATβi=λiβi(1in, 这样 A = P ( λ 1 λ 2 ⋱ λ n ) P − 1 = ( α 1 , α 2 , ⋯   , α n ) [ λ 1 λ 2 ⋱ λ n ] ( β 1 T β 2 T ⋮ β n T ) = ∑ k = 1 n λ i α i β i T . \begin{aligned} \boldsymbol{A}& =\boldsymbol{P}\begin{pmatrix}\lambda_{1}&&&\\&\lambda_{2}&&\\&&\ddots&\\&&&\lambda_{n}\end{pmatrix}\boldsymbol{P}^{-1} =(\boldsymbol{\alpha}_1,\boldsymbol{\alpha}_2,\cdots,\boldsymbol{\alpha}_n)\begin{bmatrix}\lambda_1&&&\\&\lambda_2&&\\&&\ddots&\\&&&\lambda_n\end{bmatrix}\begin{pmatrix}\boldsymbol{\beta}_1^\mathrm{T}\\\boldsymbol{\beta}_2^\mathrm{T}\\\vdots\\\boldsymbol{\beta}_n^\mathrm{T}\end{pmatrix} \\ &=\sum_{k=1}^n\lambda_i\boldsymbol{\alpha}_i\boldsymbol{\beta}_i^\mathrm{T}. \end{aligned} A=P λ1λ2λn P1=(α1,α2,,αn) λ1λ2λn β1Tβ2TβnT =k=1nλiαiβiT.
这是矩阵 A \boldsymbol A A 的谱分解的另一种表达形式. 如果记 A i = α i β i T \boldsymbol {A_i=\alpha_i\beta_i^\mathrm{T}} Ai=αiβiT , 则可写成 A = ∑ k = 1 n λ i A i . \mathbf{A}=\sum_{k=1}^n\lambda_i\mathbf{A}_i. A=k=1nλiAi.

其中, A i \boldsymbol A_i Ai 有性质:(1) A i 2 = A i ( i = 1 , 2 , ⋯   , n )   ; \boldsymbol {A_{i}^{2}=A_{i}}(i=1,2,\cdots,n)\:; Ai2=Ai(i=1,2,,n); (2) A i A j = O ( i ≠ j ) ; \mathbf{A}_{i}\mathbf{A}_{j}=\boldsymbol{O}(i\neq j) ; AiAj=O(i=j); (3) ∑ i = 1 n A i = E . \sum_{i=1}^{n}\boldsymbol {A_{i}=E}. i=1nAi=E.

P = ( α 1 , α 2 , ⋯   , α n ) , P − 1 = [ β 1 T β 2 T ⋮ β n T ] , 则  P − 1 P = [ β 1 T α 1 ⋯ β 1 T α n ⋮ ⋮ β n T α 1 ⋯ β n T α n ] = E , P P − 1 = α 1 β 1 T + ⋯ + α n β n T = E .  于是  β i T α i = 1 , β i T α j = 0 ( i ≠ j ) , ∑ k = 1 n α i β i T = E . 再结合  A i = α i β i T  就得到上面三个性质 . \begin{gathered} \boldsymbol P=(\boldsymbol{\alpha}_1,\boldsymbol{\alpha}_2,\cdots,\boldsymbol{\alpha}_n), \boldsymbol P^{-1}=\begin{bmatrix}\boldsymbol{\beta}_{1}^{\mathrm{T}}\\\boldsymbol{\beta}_{2}^{\mathrm{T}}\\\vdots\\\boldsymbol{\beta}_{n}^{\mathrm{T}}\end{bmatrix}, \text{则} ~\boldsymbol{P^{-1}P}=\begin{bmatrix}\boldsymbol{\beta}_1^\mathrm{T}\boldsymbol{\alpha}_1&\cdots&\boldsymbol{\beta}_1^\mathrm{T}\boldsymbol{\alpha}_n\\\vdots&&\vdots\\\boldsymbol{\beta}_n^\mathrm{T}\boldsymbol{\alpha}_1&\cdots&\boldsymbol{\beta}_n^\mathrm{T}\boldsymbol{\alpha}_n\end{bmatrix}=\boldsymbol{E},\\ \boldsymbol{P}\boldsymbol{P}^{-1}=\boldsymbol{\alpha}_1\boldsymbol{\beta}_1^\mathrm{T}+\cdots+\boldsymbol{\alpha}_n\boldsymbol{\beta}_n^\mathrm{T}=\boldsymbol{E}. ~\text{于是}~ \boldsymbol {\beta_{i}^{\mathrm{T}}\alpha_{i}=1},\quad\boldsymbol{\beta_{i}^{\mathrm{T}}\alpha_{j}=0}\quad(i\neq j),\quad\sum_{k=1}^{n}\boldsymbol{\alpha_{i}\beta_{i}^{\mathrm{T}}=E}.\\ \text{再结合 }\mathbf{A}_i=\boldsymbol{\alpha}_i\boldsymbol{\beta}_i^\mathrm{T}\text{ 就得到上面三个性质}. \end{gathered} P=(α1,α2,,αn),P1= β1Tβ2TβnT , P1P= β1Tα1βnTα1β1TαnβnTαn =E,PP1=α1β1T++αnβnT=E. 于是 βiTαi=1,βiTαj=0(i=j),k=1nαiβiT=E.再结合 Ai=αiβiT 就得到上面三个性质.

例 3.4.6 A = [ 4 − 6 0 2 − 3 0 − 2 3 2 ] \mathbf{A}=\left[\begin{array}{ccc}4&-6&0\\2&-3&0\\-2&3&2\end{array}\right] A= 422633002 , 求 A \mathbf{A} A 的谱分解.

先求 A \mathbf{A} A 的特征值和特征向量. ∣ λ E − A ∣ = \mid\lambda E-A\mid= λEA∣= = λ ( λ − 2 ) ( λ − 1 ) =\lambda(\lambda-2)\left(\lambda-1\right) =λ(λ2)(λ1) , 因此, A \mathbf{A} A 有3个不同的特征值 λ 1 = 0 , λ 2 = 1 , λ 3 = 2 \lambda_1=0,\lambda_2=1,\lambda_3=2 λ1=0,λ2=1,λ3=2 , 故 A \mathbf{A} A 可对角化,从而 A \mathbf{A} A 的谱分解一定存在.容易求出它们对应的特征向量为
p 1 = ( 3 ,   2 ,   0 ) T , p 2 = ( 2 ,   1 ,   1 ) T , p 3 = ( 0 ,   0 ,   1 ) T . p_{1}=(3,\:2,\:0)^{\mathrm{T}},\quad p_{2}=(2,\:1,\:1)^{\mathrm{T}},\quad p_{3}=(0,\:0,\:1)^{\mathrm{T}}. p1=(3,2,0)T,p2=(2,1,1)T,p3=(0,0,1)T. P = ( p 1 , p 2 , p 3 ) = [ 3 2 0 2 1 0 0 1 1 ] \boldsymbol P=(p_1,p_2,p_3)=\begin{bmatrix}3&2&0\\[0.3em]2&1&0\\[0.3em]0&1&1\end{bmatrix} P=(p1,p2,p3)= 320211001 ,显然 , P P P 可逆,且易求得 P − 1 = ( β 1 T β 2 T β 3 T ) = ( − 1 2 0 2 − 3 0 − 2 3 1 ) \boldsymbol{P}^{-1}=\begin{pmatrix}\boldsymbol{\beta}_{1}^{\mathrm{T}}\\\boldsymbol{\beta}_{2}^{\mathrm{T}}\\\boldsymbol{\beta}_{3}^{\mathrm{T}}\end{pmatrix}=\begin{pmatrix}-1&2&0\\2&-3&0\\-2&3&1\end{pmatrix} P1= β1Tβ2Tβ3T = 122233001
这样有
A = P ( 0 1 2 ) P − 1 = ( p 1 , p 2 , p 3 ) ( 0 1 2 ) ( β 1 T β 2 T β 3 T ) = p 2 β 2 T + 2 p 3 β 3 T , \begin{aligned} &\boldsymbol{A}=\boldsymbol{P}\begin{pmatrix}0&&\\&1&\\&&2\end{pmatrix}\boldsymbol{P}^{-1}=(\boldsymbol{p}_1,\boldsymbol{p}_2,\boldsymbol{p}_3)\begin{pmatrix}0&&\\&1&\\&&2\end{pmatrix}\begin{pmatrix}\boldsymbol{\beta}_1^\mathrm{T}\\\boldsymbol{\beta}_2^\mathrm{T}\\\boldsymbol{\beta}_3^\mathrm{T}\end{pmatrix}=p_2\beta_2^\mathrm{T}+2p_3\beta_3^\mathrm{T}, \end{aligned} A=P 012 P1=(p1,p2,p3) 012 β1Tβ2Tβ3T =p2β2T+2p3β3T,

3.5 奇异值分解

前面已知,正规矩阵可以酉对角化,因此其对应的线性变换具有很好的性质 . 现考虑 非正规矩阵.

定义3.5.1 A ∈ R m × n \boldsymbol A\in\mathbb{R}^{m\times n} ARm×n , 半正定矩阵 A T A \boldsymbol {A^\mathrm{T}A} ATA n n n 个特征值记为 λ i , i = 1 , 2 , . . . , n \lambda_i,i=1,2,...,n λi,i=1,2,...,n , 显然 λ i ⩾ 0 \lambda_i\geqslant0 λi0 . 称 λ i \lambda_i λi 的算术平方根 σ i = λ i \sigma_i=\sqrt{\lambda_i} σi=λi ( i = 1 , 2 , . . . , n ) i=1,2,...,n) i=1,2,...,n)为矩阵 A \boldsymbol A A奇异值.

定理 3.5.2 (奇异值分解定理) 设矩阵 A ∈ R m × n \boldsymbol A\in\mathbb{R}^{m\times n} ARm×n 的奇异值中有 r r r 个不等于零,记为 σ 1 ⩾ \sigma_1\geqslant σ1 σ 2 ≥ ⋯ ≥ σ r > 0. \sigma_2\geq\cdots\geq\sigma_r>0. σ2σr>0. 它们构成的 r r r 阶对角阵记为 D = diag ⁡ { σ 1 , σ 2 , ⋯   , σ r } D=\operatorname{diag}\{\sigma_1,\sigma_2,\cdots,\sigma_r\} D=diag{σ1,σ2,,σr} . 令 m × n m\times n m×n 阶矩阵 Σ = ( D   O O   O ) \boldsymbol{\Sigma}=\binom{\boldsymbol{D~O}}{\boldsymbol{O~O}} Σ=(O OD O) , 则存在正交矩阵 U ∈ R m × m ,   V ∈ R n × n \boldsymbol U\in\mathbb{R}^{m\times m},\:\boldsymbol V\in\mathbb{R}^{n\times n} URm×m,VRn×n ,使
A = U Σ V T . A=\boldsymbol U\boldsymbol{\Sigma}\boldsymbol V^{\mathrm{T}}. A=UΣVT.

证明 因为 A T A \boldsymbol {A^\mathrm{T}A} ATA n n n 阶半正定矩阵,必存在 n n n 阶正交矩阵 V \boldsymbol V V 使
  ~  
                          V T ( A T A ) V = [ λ 1 ⋱ λ r 0 ⋱ 0 ] = [ D 2 O O O ] n × n ~~~~~~~~~~~~~~~~~~~~~~~~~V^\mathrm{T}(A^\mathrm{T}A)V=\begin{bmatrix}\lambda_1&&&&&&\\&\ddots&&&&&\\&&\lambda_r&&&&\\&&&0&&&\\&&&&\ddots&\\&&&&&0\end{bmatrix}=\begin{bmatrix}D^2&O\\O&O\end{bmatrix}_{n\times n}                          VT(ATA)V= λ1λr00 =[D2OOO]n×n
  ~  
V \mathbf{V} V 分块 V = ( V 1 , V 2 )   , \mathbf V=(\mathbf V_1,\mathbf V_2)\:, V=(V1,V2), 其中 V 1 ∈ R n × r , V 2 ∈ R n × ( n − r ) \mathbf{V}_1\in\mathbf{R}^{n\times r},\mathbf{V}_2\in\mathbf{R}^{n\times(n-r)} V1Rn×r,V2Rn×(nr) .
因为 V \mathbf{V} V 是正交阵,所以 V 1 T V 1 = E r , V 1 T V 2 = O \mathbf{V} _1^{\mathrm{T} }\mathbf{V} _1= \mathbf{E} _r, \mathbf{V} _1^{\mathrm{T} }\mathbf{V} _2= \mathbf{O} V1TV1=Er,V1TV2=O, 则   [ V 1 T V 2 T ] A T A ( V 1 , V 2 ) = [ D 2 O O O ] ~\begin{bmatrix}\boldsymbol{V}_1^\mathrm{T}\\\boldsymbol{V}_2^\mathrm{T}\end{bmatrix}\boldsymbol{A}^\mathrm{T}\boldsymbol{A}(\boldsymbol{V}_1,\boldsymbol{V}_2)=\begin{bmatrix}\boldsymbol{D}^2&\boldsymbol{O}\\\boldsymbol{O}&\boldsymbol{O}\end{bmatrix}  [V1TV2T]ATA(V1,V2)=[D2OOO]
V 1 T A T A V 1 = D 2 , V 2 T A T A V 2 = 0 , \begin{array}{l}V_1^TA^TAV_1=D^2,\\V_2^TA^TAV_2=0,\end{array} V1TATAV1=D2,V2TATAV2=0,,即 A V 2 = 0 AV_2=0 AV2=0 .
A = A V V T = A ( V 1 ,   V 2 ) ( V 1 T V 2 T ) = A V 1 V 1 T + A V 2 V 2 T = A V 1 V 1 T = A V 1 D − 1 D V 1 T = U 1 D V 1 T A=AVV^\mathrm{T}=A(V_1,\:V_2)\begin{pmatrix}V_1^\mathrm{T}\\V_2^\mathrm{T}\end{pmatrix}=AV_1V_1^\mathrm{T}+AV_2V_2^\mathrm{T}=AV_1V_1^\mathrm{T}=AV_1D^{-1}DV_1^\mathrm{T}=U_1DV_1^\mathrm{T} A=AVVT=A(V1,V2)(V1TV2T)=AV1V1T+AV2V2T=AV1V1T=AV1D1DV1T=U1DV1T
  ~  
其中 U 1 = A V 1 D − 1 , U 1 ∈ R m × r U_{1}=AV_{1}D^{-1},U_{1}\in\mathbf{R}^{m\times r} U1=AV1D1,U1Rm×r , 且 U 1 T U 1 = D − 1 V 1 T A T A V 1 D − 1 = D − 1 D 2 D − 1 = E r U_1^\mathrm{T}U_1=D^{-1}V_1^\mathrm{T}A^\mathrm{T}AV_1D^{-1}=D^{-1}D^2D^{-1}=E_r U1TU1=D1V1TATAV1D1=D1D2D1=Er .
U 1 U_1 U1 扩张成正交矩阵 U = ( U 1 , U 2 ) U=(U_1,U_2) U=(U1,U2) , 则有
U Σ V T = ( U 1 , U 2 ) ( D    O O    O ) ( V 1 T V 2 T ) = ( U 1 D , O ) ( V 1 T V 2 T ) = U 1 D V 1 T = A . \begin{gathered} \boldsymbol{U\Sigma}\boldsymbol{V}^{\mathrm{T}}=(\boldsymbol{U}_{1},\boldsymbol{U}_{2})\binom{\boldsymbol{D~~O}}{\boldsymbol{O~~O}} \begin{pmatrix}\boldsymbol{V}_{1}^{\mathrm{T}}\\\boldsymbol{V}_{2}^{\mathrm{T}}\end{pmatrix}\\ =(\boldsymbol{U}_{1}\boldsymbol{D}, \boldsymbol{O}) \begin{pmatrix}\boldsymbol{V}_{1}^{\mathrm{T}}\\ \boldsymbol{V}_{2}^{\mathrm{T}}\end{pmatrix} \\ =\boldsymbol{U_1DV_1^\mathrm{T}}=\boldsymbol A. \end{gathered} UΣVT=(U1,U2)(O  OD  O)(V1TV2T)=(U1D,O)(V1TV2T)=U1DV1T=A.

  • 13
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值