矩阵分析与应用-6.2-奇异值分解-Section1

本文详细介绍了奇异值分解(SVD)的概念、性质及其在矩阵秩亏缺、矩阵变形、矩阵性质之间的关系。SVD将任意复长方矩阵分解为正交矩阵与对角矩阵的乘积,奇异值是矩阵乘积的特征值的正平方根,与矩阵的范数、条件数、行列式和特征值有密切联系。此外,还探讨了奇异值与矩阵秩近似、子矩阵奇异值的关系以及奇异值在矩阵条件数和特征值中的角色。
摘要由CSDN通过智能技术生成

前言

本文学习过程来源是《矩阵分析与应用-张贤达》一书. 可以通过 z-lib 下载.

一、奇异值分解及其解释

1. 奇异值分解定义

对于任意复长方矩阵都可以进行奇异值分解.

定理 1 (矩阵的奇异值分解) : 令 A ∈ R m × n A \in R^{m \times n} ARm×n ( 或 C m × n C^{m \times n} Cm×n ), 则存在正交 (或酉) 矩阵 U ∈ R m × m U \in R^{m \times m} URm×m V ∈ R n × n V \in R^{n \times n} VRn×n ( 或 C n × n C^{n \times n} Cn×n ) 使得

A = U Σ V T   (   或   U Σ V H ) (1) A = U \Sigma V^{\mathrm{T}} \ ( \ 或 \ U \Sigma V^{\mathrm{H}} ) \tag{1} A=UΣVT (  UΣVH)(1)

式子中

Σ = [ Σ 1 O O O ] (2) \Sigma = \begin{bmatrix} \Sigma_1& O\\ O&O \end{bmatrix} \tag{2} Σ=[Σ1OOO](2)

Σ 1 = d i a g ( σ 1 , σ 2 , ⋯   , σ r ) \Sigma_1 = \mathrm{diag}(\sigma_1,\sigma_2,\cdots,\sigma_r) Σ1=diag(σ1,σ2,,σr), 其对角元素按照顺序

σ 1 ≥ σ 2 ≥ ⋯ ≥ σ r > 0 , r = r a n k ( A ) (3) \sigma_1 \ge \sigma_2 \ge \cdots \ge \sigma_r > 0, \quad r = \mathrm{rank}(A) \tag{3} σ1σ2σr>0,r=rank(A)(3)

排列, 这些值自然也被称作奇异值.

定义 1 : 矩阵 A m × n A_{m \times n} Am×n 的奇异值 σ i \sigma_i σi 称为单奇异值, 若 σ i ≠ σ j , ∀ j ≠ i \sigma_i \neq \sigma_j, \forall j \neq i σi=σj,j=i

2. 奇异值和奇异值分解解释及其标记

  • n × n n \times n n×n 矩阵 V V V 为酉矩阵, 用 V V V 右乘式 A = U Σ V T A = U \Sigma V^{\mathrm{T}} A=UΣVT 得到 A V = U Σ AV=U\Sigma AV=UΣ, 其列向量形式为

    A v i = { σ i u i i = 1 , 2 , ⋯   , r 0 i = r + 1 , r + 2 , ⋯   , n (4) Av_i = \left\{\begin{matrix} \sigma_iu_i& i=1,2,\cdots,r\\ 0& i=r+1,r+2,\cdots,n \end{matrix}\right. \tag{4} Avi={σiui0i=1,2,,ri=r+1,r+2,,n(4)

    因此, V V V 的列向量 v i v_i vi 称为矩阵 A A A 的右奇异向量, V V V 称为 A A A 的右奇异向量矩阵.

  • m × m m \times m m×m 矩阵 U H U^{\mathrm{H}} UH 为酉矩阵, 用 U H U^{\mathrm{H}} UH 左乘式 A = U Σ V T A = U \Sigma V^{\mathrm{T}} A=UΣVT 得到 U H A = Σ V U^{\mathrm{H}}A=\Sigma V UHA=ΣV, 其列向量形式为

    u i H A = { σ i v i T i = 1 , 2 , ⋯   , r 0 i = r + 1 , r + 2 , ⋯   , n (5) u_i^{\mathrm{H}}A = \left\{\begin{matrix} \sigma_iv_i^{\mathrm{T}}& i=1,2,\cdots,r\\ 0& i=r+1,r+2,\cdots,n \end{matrix}\right. \tag{5} uiHA={σiviT0i=1,2,,ri=r+1,r+2,,n(5)

    因此, U U U 的列向量 u i u_i ui 称为矩阵 A A A 的左奇异向量, U U U 称为 A A A 的左奇异向量矩阵.

  • 矩阵 A A A 的奇异值分解式子也可以改成向量形式

    A = ∑ i = 1 r σ i u i v i H (6) A= \sum_{i=1}^{r}\sigma_i u_i v_i^{\mathrm{H}} \tag{6} A=i=1rσiuiviH(6)

    这种叫 A A A 的并向量 (奇异值) 分解

  • 观察到奇异值分解式子, 有

    A A H = U Σ 2 U H (7) AA^{\mathrm{H}} = U \Sigma^2U^{\mathrm{H}} \tag{7} AAH=UΣ2UH(7)

    表明, m × n m \times n m×n 矩阵 A A A 的奇异值 σ i \sigma_i σi 是矩阵乘积 A A H AA^{\mathrm{H}} AAH 的特征值的正平方根.

  • 当矩阵 A A A 的秩 r = r a n k ( A ) < min ⁡ { m , n } r = \mathrm{rank}(A) < \min\{m,n\} r=rank(A)<min{m,n} 时, 由于奇异值 σ r + 1 = σ r + 2 = ⋯ = σ h = 0 , h = min ⁡ { m , n } \sigma_{r+1} = \sigma_{r+2} = \cdots =\sigma_h = 0, h = \min\{m,n\} σr+1=σr+2==σh=0,h=min{m,n}, 奇异值分解公式可以简化为

    A = U r Σ r V r H (8) A=U_r\Sigma_rV_r^{\mathrm{H}} \tag{8} A=UrΣrVrH(8)

    式子中

    U r = [ u 1 , u 2 , ⋯   , u r ] , V r = [ v 1 , v 2 , ⋯   , v r ] , Σ r = d i a g [ σ 1 , σ 2 , ⋯   , σ r ] U_r = [u_1,u_2,\cdots,u_r], \quad V_r = [v_1,v_2,\cdots,v_r], \quad \Sigma_r = \mathrm{diag}[\sigma_1,\sigma_2,\cdots,\sigma_r] Ur=[u1,u2,,ur],Vr=[v1,v2,,vr],Σr=diag[σ1,σ2,,σr]

    式子 (7) 称为矩阵 A A A 的截尾奇异值分解或薄奇异值分解. 那么之前那个就叫做全奇异值分解.

  • 如果矩阵 A m × n A_{m \times n} Am×n 具有秩 r r r, 则

    • m × m m \times m m×m 酉矩阵 U U U 的前 r r r 列组成矩阵 A A A 的列空间的标准正交基

    • n × n n \times n n×n 酉矩阵 V V V 的前 r r r 列组成矩阵 A A A 的行空间 (或 A H A^{\mathrm{H}} AH 的列空间) 的标准正交基

    • V V V 的后 n − r n - r nr 列组成矩阵 A A A 的零空间的标准正交基

    • U U U 的后 m − r m - r mr 列组成矩阵 A H A^{\mathrm{H}} AH 的零空间的标准正交基

3. 矩阵的秩亏缺

定理 2 : 令 A ∈ C m × n ( m > n ) A \in C^{m \times n} (m > n) ACm×n(m>n) 的奇异值为

σ 1 ≥ σ 2 ≥ ⋯ ≥ σ r ≥ 0 \sigma_1 \ge \sigma_2 \ge \cdots \ge \sigma_r \ge 0 σ1σ2σr0

σ k = min ⁡ E ∈ C m × n { ∥ E ∥ F : r a n k ( A + E ) ≤ k − 1 } , k = 1 , 2 , ⋯   , n (9) \sigma_k = \min_{E \in C^{m \times n}} \{ \lVert E \rVert_{\mathrm{F}} : {\mathrm{rank}}(A+E) \le k -1\}, \quad k=1,2,\cdots,n \tag{9} σk=ECm×nmin{EF:rank(A+E)k1},k=1,2,,n(9)

并且存在一满足 ∥ E ∥ F = σ k \lVert E \rVert_{\mathrm{F}} = \sigma_k EF=σk 的误差矩阵 E E E 使得

r a n k ( A + E k ) = k − 1 , k = 1 , 2 , ⋯   , n \mathrm{rank}(A+E_k) = k-1, \quad k = 1,2,\cdots,n rank(A+Ek)=k1,k=1,2,,n

矩阵的奇异值如果为零, 说明这个矩阵一定不是行满秩或者列满秩. 这就叫矩阵的秩亏缺.

对于方阵用行列式就可以很直观看出来, 对于非方阵就需要考虑线性变换.

二、奇异值的性质

1. 矩阵变形与奇异值变化

令矩阵 A A A 和矩阵 B B B 均为 m × n m \times n m×n 矩阵, 并且 r A = r a n k ( A ) , p = min ⁡ { m , n } r_A = \mathrm{rank}(A), p = \min\{m,n\} rA=rank(A),p=min{m,n}

设矩阵 A A A 的奇异值排列为

σ m a x = σ 1 ≥ σ 2 ≥ ⋯ ≥ σ p − 1 ≥ σ p = σ m i n ≥ 0 (10) \sigma_{\mathrm{max}} = \sigma_1 \ge \sigma_2 \ge \cdots \ge \sigma_{p-1} \ge \sigma_p = \sigma_{\mathrm{min}} \ge 0 \tag{10} σmax=σ1σ2σp1σp=σmin0(10)

并且用 σ i ( B ) \sigma_i(B) σi(B) 表示矩阵 B B B 的第 i i i 个奇异值.

矩阵的各种变形与奇异值的变化有以下关系.

  • m × n m \times n m×n 矩阵 A A A 的共轭转置 A H A^\mathrm{H} AH 的奇异值分解为

    A H = V Σ T U H (11) A^\mathrm{H} = V \Sigma^\mathrm{T} U^\mathrm{H} \tag{11} AH=VΣTUH(11)

    A A A A H A^\mathrm{H} AH 有完全相同的奇异值.

  • P P P Q Q Q 分别为 m × m m \times m m×m n × n n \times n n×n 酉矩阵时, P A Q H PAQ^\mathrm{H} PAQH 的奇异值分解由

    P A Q H = U ˉ Σ V ˉ H (12) PAQ^\mathrm{H} = \bar{U} \Sigma \bar{V}^\mathrm{H} \tag{12} PAQH=UˉΣVˉH(12)

    给出, 其中, U ˉ = P U , V ˉ = Q V \bar{U} = PU, \bar{V}=QV Uˉ=PU,Vˉ=QV. 就是说, 矩阵 P A Q H PAQ^\mathrm{H} PAQH A A A 具有相同的奇异值, 即奇异值具有酉不变性, 但奇异向量不同. 这个性质和特征值、特征向量之间的关系非常相似.

  • A H A , A A H A^\mathrm{H}A, AA\mathrm{H} AHA,AAH 的奇异值分解分别为

    A A H = V Σ T Σ V H , A A H = U Σ Σ T U H (13) AA^\mathrm{H} = V \Sigma^\mathrm{T}\Sigma V^\mathrm{H}, \quad AA^\mathrm{H} = U \Sigma\Sigma^\mathrm{T} U^\mathrm{H} \tag{13} AAH=VΣTΣVH,AAH=UΣΣTUH(13)

    其中

    Σ T Σ = d i a g ( σ 1 2 , σ 2 2 , ⋯   , σ r 2 , 0 , ⋯   , 0 ⏞ n − r 个 ) (14) \Sigma^\mathrm{T}\Sigma = \mathrm{diag}(\sigma_1^2,\sigma_2^2,\cdots,\sigma_r^2,\overbrace{0,\cdots,0}^{n - r个}) \tag{14} ΣTΣ=diag(σ12,σ22,,σr2,0,,0 nr)(14)

    Σ Σ T = d i a g ( σ 1 2 , σ 2 2 , ⋯   , σ r 2 , 0 , ⋯   , 0 ⏞ m − r 个 ) (15) \Sigma\Sigma^\mathrm{T} = \mathrm{diag}(\sigma_1^2,\sigma_2^2,\cdots,\sigma_r^2,\overbrace{0,\cdots,0}^{m - r个}) \tag{15} ΣΣT=diag(σ12,σ22,,σr2,0,,0 mr)(15)

  • m × n m \times n m×n 矩阵 A A A 的奇异值分解与 n × m n \times m n×m M o o r e − P e n r o s e \mathrm{Moore-Penrose} MoorePenrose 广义逆矩阵 A † A^\dagger A 之间存在下列关系

    A † = V Σ † U H (16) A^\dagger = V \Sigma^\dagger U^\mathrm{H} \tag{16} A=VΣUH(16)

    其中 Σ † = [ Σ − 1 O O O ] \Sigma^\dagger = \begin{bmatrix} \Sigma^{-1}& O\\ O&O \end{bmatrix} Σ=[Σ1OOO]

2. 奇异值和矩阵性质之间的关系

定理 3 : 令 A A A 是一个 m × n m \times n m×n 矩阵, 其奇异值 σ 1 ≥ σ 2 ≥ ⋯ ≥ σ r \sigma_1 \ge \sigma_2 \ge \cdots \ge \sigma_r σ1σ2σr, 其中, r = min ⁡ { m , n } r = \min\{m,n\} r=min{m,n}. 若 p × q p \times q p×q 矩阵 B B B A A A 的子矩阵, 其奇异值 γ 1 ≥ γ 2 ≥ ⋯ ≥ γ min ⁡ { p , q } \gamma_1 \ge \gamma_2 \ge \cdots \ge \gamma_{\min\{p,q\}} γ1γ2γmin{p,q}

σ i ≥ γ i , i = 1 , 2 , ⋯   , min ⁡ { p , q } (17) \sigma_i \ge \gamma_i , \quad i=1,2,\cdots,\min\{p,q\} \tag{17} σiγi,i=1,2,,min{p,q}(17)

并且

γ i ≥ σ i + ( m − p ) + ( n − 1 ) , i ≤ min ⁡ { p + 1 − m , p + 1 − n } (18) \gamma_i \ge \sigma_{i+(m-p)+(n-1)}, \quad i \le \min\{p+1-m,p+1-n\} \tag{18} γiσi+(mp)+(n1),imin{p+1m,p+1n}(18)

  1. 奇异值与范数的关系

    矩阵 A A A 的谱范数等于 A A A 的最大奇异值, 即

    ∥ A ∥ s p e c = σ 1 (19) \lVert A \rVert_{\mathrm{spec}} = \sigma_1 \tag{19} Aspec=σ1(19)

    又有 ∥ U H A V ∥ F = ∥ A ∥ F \lVert U^{\mathrm{H}}AV \rVert_{\mathrm{F}} = \lVert A \rVert_{\mathrm{F}} UHAVF=AF, 故有

    ∥ A ∥ F = [ ∑ i = 1 m ∑ j = 1 n ∣ a i j ∣ 2 ] 1 / 2 (20) \lVert A \rVert_{\mathrm{F}} = \left [ \sum_{i=1}^{m} \sum_{j=1}^{n}|a_{ij}|^2 \right ] ^{1/2} \tag{20} AF=[i=1mj=1naij2]1/2(20)

    ∥ A ∥ F = σ 1 2 + σ 2 2 + ⋯ + σ r 2 (21) \lVert A \rVert_{\mathrm{F}} = \sqrt{\sigma_1^2+\sigma_2^2+\cdots+\sigma_r^2} \tag{21} AF=σ12+σ22++σr2 (21)

    考虑矩阵 A A A 的秩 k k k 近似, 并将其记作 A k A_k Ak, 其中, k < r = r a n k ( A ) k < r = \mathrm{rank}(A) k<r=rank(A). 矩阵 A k A_k Ak 定义如下:

    A k = ∑ i = 1 k σ i u i v i H , k < r A_k = \sum_{i=1}^{k}\sigma_iu_iv_i^{\mathrm{H}}, \quad k < r Ak=i=1kσiuiviH,k<r

    A A A 与秩为 k k k 的任一矩阵 B B B 之差的 l 1 l_1 l1 F r o b i n e u s \mathrm{Frobineus} Frobineus 范数分别为

    min ⁡ r a n k ( B ) = k ∥ A − B ∥ 1 = ∥ A − A k ∥ 1 = σ k + 1 (22) \min_{\mathrm{rank}(B)=k} \lVert A-B \rVert_1 = \lVert A-A_k \rVert_1 =\sigma_{k+1} \tag{22} rank(B)=kminAB1=AAk1=σk+1(22)

    min ⁡ r a n k ( B ) = k ∥ A − B ∥ F 2 = ∥ A − A k ∥ F 2 = σ k + 1 2 + σ k + 2 2 + ⋯ + σ r 2 (23) \min_{\mathrm{rank}(B)=k} \lVert A-B \rVert_{\mathrm{F}}^2 = \lVert A-A_k \rVert_{\mathrm{F}}^2 =\sigma_{k+1}^2 + \sigma_{k+2}^2 + \cdots + \sigma_{r}^2 \tag{23} rank(B)=kminABF2=AAkF2=σk+12+σk+22++σr2(23)

  2. 奇异值与行列式的关系

    ∣ d e t ( A ) ∣ = ∣ d e t Σ ∣ = σ 1 σ 2 ⋯ σ n (24) |\mathrm{det}(A)| = |\mathrm{det}\Sigma| = \sigma_1 \sigma_2 \cdots \sigma_n \tag{24} det(A)=detΣ=σ1σ2σn(24)

    还有一些不等式关系, 对于一个 n × n n \times n n×n 矩阵 A A A

    n σ 1 ≥ ∥ A ∥ F ≥ σ 1 σ 1 n ≥ σ 1 n − 1 σ n ≥ ∣ d e t ( A ) ∣ ≥ σ n n ∥ A ∥ F ≥ σ 1 ≥ ∣ d e t ( A ) ∣ 1 / n ∣ d e t ( A ) ∣ 1 / n ≥ σ n ≥ ∣ d e t ( A ) ∣ / ∥ A ∥ F n − 1 ∥ A ∥ F n / ∣ d e t ( A ) ∣ ≥ σ 1 / σ 2 ≥ max ⁡ { 1 , 1 n ∥ A ∥ F / ∣ d e t ( A ) ∣ 1 / n } } (25) \left.\begin{matrix} n\sigma_1 \ge \lVert A \rVert_{\mathrm{F}} \ge \sigma_1 \\ \sigma_1^n \ge \sigma_1^{n-1}\sigma_n \ge |\mathrm{det}(A)| \ge \sigma_n^n\\ \lVert A \rVert_{\mathrm{F}} \ge \sigma_1 \ge |\mathrm{det}(A)|^{1/n} \\ |\mathrm{det}(A)|^{1/n} \ge \sigma_n \ge |\mathrm{det}(A)| / \lVert A \rVert_{\mathrm{F}}^{n-1}\\ \lVert A \rVert_{\mathrm{F}}^n / |\mathrm{det}(A)| \ge \sigma_1 / \sigma_2 \ge \max \{1, \frac{1}{n} \lVert A \rVert_{\mathrm{F}}/ |\mathrm{det}(A)|^{1/n}\} \end{matrix}\right\} \tag{25} nσ1AFσ1σ1nσ1n1σndet(A)σnnAFσ1det(A)1/ndet(A)1/nσndet(A)/AFn1AFn/det(A)σ1/σ2max{1,n1AF/det(A)1/n}(25)

  3. 奇异值与条件数的关系

    对于一个 m × n m \times n m×n 矩阵 A A A, 其条件数也可以利用奇异值定义为

    c o n d ( A ) = σ 1 / σ p , p = min ⁡ { m , n } (26) \mathrm{cond}(A) = \sigma_1/\sigma_p, \quad p = \min\{m,n\} \tag{26} cond(A)=σ1/σp,p=min{m,n}(26)

    条件数在之前也没有接触过, 就写到这里作罢.

  4. 奇异值与特征值的关系

    n × n n \times n n×n 对称方阵 A A A 的特征值为 λ 1 , λ 2 , ⋯   , λ n ( ∣ λ 1 ∣ ≥ ∣ λ 2 ∣ ≥ ⋯ ≥ ∣ λ n ∣ ) \lambda_1,\lambda_2,\cdots,\lambda_n (|\lambda_1| \ge |\lambda_2| \ge \cdots \ge |\lambda_n|) λ1,λ2,,λn(λ1λ2λn), 奇异值为 σ 1 , σ 2 , ⋯   , σ n ( σ 1 ≥ σ 2 ≥ ⋯ ≥ σ n ≥ 0 ) \sigma_1,\sigma_2,\cdots,\sigma_n(\sigma_1 \ge \sigma_2 \ge \cdots \ge \sigma_n \ge 0) σ1,σ2,,σn(σ1σ2σn0), 则 σ 1 ≥ ∣ λ i ∣ ≥ σ n ( i = 1 , 2 , ⋯   , n ) , c o n d ( A ) ≥ ∣ λ 1 ∣ / ∣ λ n ∣ \sigma_1 \ge |\lambda_i| \ge \sigma_n (i=1,2,\cdots,n), \mathrm{cond}(A) \ge |\lambda_1| / |\lambda_n| σ1λiσn(i=1,2,,n),cond(A)λ1/λn

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值