文章目录
前言
本文学习过程来源是《矩阵分析与应用-张贤达》一书. 可以通过 z-lib 下载.
之前说的逆矩阵都是在方阵的条件下进行讨论的, 然后这部分内容将方阵推广到一般矩阵.
一、左逆矩阵与右逆矩阵
1. 左逆矩阵与右逆矩阵的存在性
从广义角度来讲, 对于任意矩阵 A A A, 只要有一个矩阵 L L L 使得 L A = I LA=I LA=I, 那么矩阵 L L L 就是 A A A 的逆矩阵. 那么 L L L 存在着三种情况.
-
L L L 存在且唯一
-
L L L 存在但不唯一
-
L L L 不存在
定义 1: 满足 L A = I LA = I LA=I, 但不满足 A L = I AL=I AL=I 的矩阵 L L L 称为矩阵 A A A 的左逆矩阵. 同理, 满足 A R = I AR=I AR=I, 但不满足 R A = I RA=I RA=I 的矩阵称为矩阵 A A A 的右逆矩阵.
定理 1: 仅当 m ≥ n m \ge n m≥n 时, 矩阵 A ∈ C m × n A \in C^{m \times n} A∈Cm×n 可能有左逆矩阵. (证明方法是把矩阵转换成分块矩阵)
定理 2: 仅当 m ≤ n m \le n m≤n 时, 矩阵 A ∈ C m × n A \in C^{m \times n} A∈Cm×n 可能有右逆矩阵. (证明方法同定理 1 类似)
特别地, 方阵的左逆矩阵和右逆矩阵相等, 那么这个方阵就是非奇异的. 它的逆矩阵即使左逆矩阵, 又是右逆矩阵.
2. 左逆矩阵与右逆矩阵的唯一解
对给定的 m × n m \times n m×n 矩阵 A A A, 考察 m > n m > n m>n 且 A A A 具有满列秩 ( r a n k A = n \mathrm{rank}A=n rankA=n) 的情况. 易得,
L = ( A H A ) − 1 A H (1) L=(A^{\mathrm{H}}A)^{-1}A^{\mathrm{H}} \tag{1} L=(AHA)−1AH(1)
满足左逆矩阵的定义 L A = I LA=I LA=I, 这种左逆矩阵是唯一的, 常称为左伪逆矩阵.
考察 m < n m < n m<n 且 A A A 具有满行秩 ( r a n k A = m \mathrm{rank}A=m rankA=m) 的情况. 此时, m × m m \times m m×m 矩阵 A A H AA^{\mathrm{H}} AAH 是可逆的, 定义
R = A H ( A A H ) − 1 (2) R = A^{\mathrm{H}}(AA^{\mathrm{H}})^{-1} \tag{2} R=AH(AAH)−1(2)
满足右逆矩阵的定义 A R = I AR=I AR=I, 这种右逆矩阵是唯一的, 常称为右伪逆矩阵.
左伪逆矩阵与超定方程的最小二乘解密切相关, 而右伪逆矩阵则与欠定方程的最小二乘和最小范数解密切联系.
二、广义逆矩阵的定义及性质
1. 一致性方程
一致性方程:
定义 2: 若矩阵 A A A 行之间存在的线性关系同时也存在于向量 y y y 的对应元素之间, 则称 A m × n x n × 1 = y m × 1 A_{m \times n}x_{n \times 1}=y_{m \times 1} Am×nxn×1=ym×1 为一致性方程.
定理 3: 当且仅当方程为一致性方程时, 这线性方程组可以求解.
定理 4: 线性方程 A x = y Ax=y Ax=y 是一致的, 当且仅当增广矩阵 [ A , y ] [A,y] [A,y] 的秩等于矩阵 A 的秩, 即:
r a n k ( [ A , y ] ) = r a n k ( A ) rank([A,y]) = rank(A) rank([A,y])=rank(A)
2. 广义逆矩阵 G G G
广义逆矩阵 G G G:
定义 3: 若 A A A 是一个 m × n m \times n m×n 矩阵, 且具有任意秩. 即矩阵 A A A 的广义逆矩阵是一个 n × m n \times m n×m 矩阵 G G G, 并且使得当 A x = y Ax = y Ax=y 为一致性方程时, x = G y x = Gy x=Gy 是线性方程 A x = y Ax=y Ax=y 的解.
定理 5: 当且仅当 A G A = A AGA = A AGA=A时, 一致性方程 A x = y Ax = y Ax=y 对于 y ≠ 0 y \neq 0 y=0 有解 x = G y x = Gy x=Gy.
命题 1: 方程 A x = 0 Ax=0 Ax=0 的解与矩阵A的任意行正交, 并且线性无关.
证明:
我们知道 A x = 0 Ax=0 Ax=0 是一个一致性方程, 即矩阵 A A A 之中行之间的关系存在于 0 向量中. 线性方程也一定是有解的. 用 a T a^T aT 表示矩阵中的任意一行, x ~ \tilde{x} x~ 表示方程的一个解,即有 a T x ~ = 0 a^T \tilde{x}=0 aTx~=0, 即解与 A A A 中任意一行正交.
m × n m \times n m×n 矩阵 A A A 的广义逆矩阵 G G G 用符号 A − A^- A− 表示, 即 G = A − G = A^- G=A−
引理 1: A − A^- A− 存在 ⇔ A A − A = A \Leftrightarrow AA^-A=A ⇔AA−A=A
证明 :
⇒ \Rightarrow ⇒ 的证明
令 y = A z y = Az y=Az 且 z z z 是一个 n × 1 n \times 1 n×1 的任意向量, 即有 A x = y Ax = y Ax=y 是一致性方程.
在这里, 广义逆矩阵 A − A^- A− 存在的话, 就意味着:
A ( A − A z ) = A ( A − y ) = A z , ∀ z ⇒ A A − A = A A(A^-Az) = A(A^- y) = Az , \quad \forall z \quad \Rightarrow AA^-A=A A(A−Az)=A(A−y)=Az,∀z⇒AA−A=A
⇐ \Leftarrow ⇐ 的证明
若 A G A = A AGA = A AGA=A, 我们需要证明 G G G 就是矩阵 A A A 的广义逆矩阵 A − A^- A−
若 A x = y Ax = y Ax=y 是一致性方程, 则 ∃ \exists ∃ 解向量 w w w 满足 A w = y Aw = y Aw=y 。
由于 A G A = A AGA = A AGA=A, 即 A G A w = A w ⇒ A G y = A w = y AGAw = Aw \Rightarrow AGy = Aw = y AGAw=Aw⇒AGy=Aw=y. 即我们看到 G y Gy Gy 满足线性方程 A x = y Ax = y Ax=y.
即 $ Gy $ 是 $ Ax = y $ 的一个解向量,即 $ G = A^- $
引理 2: 下面结论为真
-
A − A^- A− 存在 ⇔ H = A − A \Leftrightarrow H=A^-A ⇔H=A−A 为幂等矩阵 (即 H 2 = H H^2 = H H2=H) 和 r a n k ( H ) = r a n k ( A ) \mathrm{rank}(H)=\mathrm{rank}(A) rank(H)=rank(A).
-
A − A^- A− 存在 ⇔ F = A A − \Leftrightarrow F=AA^- ⇔F=AA− 为幂等矩阵 (即 F 2 = F F^2 = F F2=F) 和 r a n k ( F ) = r a n k ( A ) \mathrm{rank}(F)=\mathrm{rank}(A) rank(F)=rank(A).
而对于 ⇒ \Rightarrow ⇒ 的证明:
这个我们用上面的 A A − A = A AA^-A = A AA−A=A 同时左乘一个 A − A^- A− 即可证明 H 2 = H H^2 = H H2=H
而矩阵性质: r a n k ( A B ) ≤ r a n k ( A ) \mathrm{rank}(AB) \leq \mathrm{rank}(A) rank(AB)≤rank(A) 或者 r a n k ( A B ) ≤ r a n k ( B ) \mathrm{rank}(AB) \leq \mathrm{rank}(B) rank(AB)≤rank(B) ,
又有 H = A − A H = A^-A H=A−A 以及 A H = A A − A = A AH = AA^-A = A AH=AA−A=A
即我们有: r a n k ( A ) ≥ r a n k ( H ) ≥ r a n k ( A H ) ≥ r a n k ( A ) \mathrm{rank}(A) \geq \mathrm{rank}(H) \geq \mathrm{rank}(AH) \geq \mathrm{rank}(A) rank(A)≥rank(H)≥rank(AH)≥rank(A)
得证 r a n k ( H ) = r a n k ( A ) \mathrm{rank}(H) = \mathrm{rank}(A) rank(H)=rank(A)
而对于 ⇐ \Leftarrow ⇐ 的证明:
我们假定 H = A − A H = A^-A H=A−A 是幂等矩阵, 且 r a n k ( H ) = r a n k ( A ) \mathrm{rank}(H)=\mathrm{rank}(A) rank(H)=rank(A)
即我们有 H ( I − H ) = O ⇒ A − A ( I − A − A ) = O ⇒ A ( I − A − A ) = O ⇒ A A − A = A H(I-H) = O \Rightarrow A^- A(I-A^-A) = O \Rightarrow A(I-A^-A) = O \Rightarrow AA^-A = A H(I−H)=O⇒A−A(I−A−A)=O⇒A(I−A−A)=O⇒AA−A=A
类似可证明另一个结论.
3. 广义逆矩阵的其他两种定义
定义 4: m × n m \times n m×n 矩阵 A A A 的广义逆矩阵是一个满足
A A − A = A AA^-A = A AA−A=A
的 n × m n \times m n×m 矩阵 A − A^- A−.
定义 5: m × n m \times n m×n 矩阵 A A A 的广义逆矩阵是满足下列两个条件之一的 n × m n \times m n×m 的矩阵 A − A^- A−
- A − A A^-A A−A 为幂等矩阵, 且 r a n k ( A − A ) = r a n k ( A ) \mathrm{rank}(A^-A) = \mathrm{rank}(A) rank(A−A)=rank(A)
- A A − AA^- AA− 为幂等矩阵, 且 r a n k ( A A − ) = r a n k ( A ) \mathrm{rank}(AA^-) = \mathrm{rank}(A) rank(AA−)=rank(A)
验证:
若矩阵 A m × n A_{m \times n} Am×n 有一个主子矩阵 A 11 A_{11} A11 且其秩 r = r a n k ( A ) r = \mathrm{rank}(A) r=rank(A), 且 A A A 的分块形式为:
A = [ A 11 A 12 A 21 A 22 ] , 且 A 22 = A 21 A 11 − 1 A 12 A = \begin{bmatrix} A_{11} & A_{12} \\ A_{21} & A_{22} \\ \end{bmatrix} , \qquad 且 \ A_{22} = A_{21}A^{-1}_{11}A_{12} A=[A11A21A12A22],且 A22=A21A11−1A12
则其广义逆矩阵 A − A^{-} A− 为:
A − = [ A 11 − 1 O O O ] A^{-} = \begin{bmatrix} A_{11}^{-1} & O \\ O & O \\ \end{bmatrix} A−=[A11−1OOO]
三、广义逆矩阵的计算
1. 满秩分解
定义 6: 令 A m × n A_{m \times n} Am×n 具有秩 r r r. 将其分解为 A = F G A = FG A=FG, 其中 F m × r F_{m \times r} Fm×r 和 G r × n G_{r \times n} Gr×n 均具有秩 r r r, 则称这是矩阵的满秩分解.
我们可以通过矩阵的相似对角化去证明出来.
为此我们得到了满秩分解算法:
- 利用初等行变换将矩阵 A A A 化为阶梯形:
[ G r × n O ( m − r ) × n ] \begin{bmatrix} G_{r \times n} \\ O_{(m-r) \times n} \\ \end{bmatrix} [Gr×nO(m−r)×n]
-
对单位矩阵 I I I 进行第一步的逆初等行变换得到 P − 1 P^{-1} P−1
-
利用 P − 1 P^{-1} P−1 的前 r r r 列构造矩阵 F F F
-
书写满秩分解结果 A = F G A = FG A=FG
引理 3: 若矩阵 A m × n A_{m \times n} Am×n 具有秩 r r r, 且其满秩分解为 A = F m × r G r × n A = F_{m \times r}G_{r \times n} A=Fm×rGr×n, 则我们知道其广义逆矩阵为:
A − = G T ( F T A G T ) − 1 F T (3) A^- = G^T(F^TAG^T)^{-1}F^T \tag{3} A−=GT(FTAGT)−1FT(3)
证明也很简单, 带入 A A − A = A AA^-A = A AA−A=A 就能证明了.
2. 广义逆矩阵的计算
- 假设 A m × n A_{m \times n} Am×n, 且 u m × 1 u_{m \times 1 } um×1 和 v n × 1 v_{n \times 1} vn×1 是两个一维向量, 则有:
( A + u v T ) − = A − − ( A − u ) ( u T A − ) 1 + u T A − u (4) (A + uv^T)^- = A^- - \frac{(A^-u)(u^TA^-)}{1 + u^TA^-u} \tag{4} (A+uvT)−=A−−1+uTA−u(A−u)(uTA−)(4)
-
分块矩阵的广义逆矩阵计算公式:
若
M = [ A C C H B ] (5) M = \begin{bmatrix} A & C \\ C^H & B \\ \end{bmatrix} \tag{5} M=[ACHCB](5)
其中 A = X 1 H X 1 A = X^H_1X_1 A=X1HX1, B = X 2 H X 2 B = X^H_2X_2 B=X2HX2, C = X 1 H X 2 C = X^H_1X_2 C=X1HX2, 若设 D = B − C H A − C D = B - C^H A^-C D=B−CHA−C, 则我们有 M − M^- M−:
M − = [ A − + A − C D − C H A − − A − C D − − D − C H A − D − ] (6) M^- = \begin{bmatrix} A^- + A^-CD^-C^HA^- & -A^-CD^- \\ -D^-C^HA^- & D^- \\ \end{bmatrix} \tag{6} M−=[A−+A−CD−CHA−−D−CHA−−A−CD−D−](6)
-
矩阵之和的广义逆矩阵的计算公式:
若 A A − U B V = U B V AA^-UBV = UBV AA−UBV=UBV (即 U B V UBV UBV 的列空间是 A A A 的列空间的子集) 与 U B V A − A = U B V UBVA^-A = UBV UBVA−A=UBV (即 U B V UBV UBV 的行空间是 A A A 的行空间的子集), 则我们有 G = A + U B V G = A + UBV G=A+UBV 的广义逆矩阵 G − G^- G− 存在几种求法:
G 1 − = A − − A − ( A − + A − U B V A − ) − A − U B V A − G 2 − = A − − A − U ( U + U B V A − U ) − U B V A − G 3 − = A − − A − U B ( B + B V A − U B ) − B V A − G 4 − = A − − A − U B V ( V + V A − U B V ) − V A − G 5 − = A − − A − U B V A − ( A − + A − U B V A − ) − A − \begin{aligned} G^-_1 &= A^- -A^-(A^- + A^-UBVA^-)^-A^-UBVA^- \\ G^-_2 &= A^- -A^-U(U + UBVA^-U)^-UBVA^- \\ G^-_3 &= A^- -A^-UB(B + BVA^-UB)^-BVA^- \\ G^-_4 &= A^- -A^-UBV(V + VA^-UBV)^-VA^- \\ G^-_5 &= A^- -A^-UBVA^-(A^- + A^-UBVA^-)^-A^- \\ \end{aligned} G1−G2−G3−G4−G5−=A−−A−(A−+A−UBVA−)−A−UBVA−=A−−A−U(U+UBVA−U)−UBVA−=A−−A−UB(B+BVA−UB)−BVA−=A−−A−UBV(V+VA−UBV)−VA−=A−−A−UBVA−(A−+A−UBVA−)−A−
四、一致方程的最小范数解
1. 通解
定理 6: 若 n × m n \times m n×m 矩阵 A − A^- A− 是 A m × n A_{m \times n} Am×n 的任意一个广义逆矩阵, 则有:
-
齐次方程 A x = 0 Ax = 0 Ax=0 的一个通解是 x = ( I − A − A ) z x = (I-A^-A)z x=(I−A−A)z, 其中 z z z 是任意的 n × 1 n \times 1 n×1 的向量 (容易证明吧, 和上面引理 2 思想一样)
-
非齐次方程 A x = y Ax = y Ax=y 为一致方程的充要条件为:
A A − y = y (7) AA^-y = y \tag{7} AA−y=y(7)
-
非齐次方程 $ Ax = y $ 的一个通解为:
x = A − y + ( I − A − A ) z (8) x = A^-y + (I-A^-A)z \tag{8} x=A−y+(I−A−A)z(8)
式中, z z z 为 n × 1 n \times 1 n×1 任意向量.
2. 最小范数解
对一个一致方程 A x = y Ax=y Ax=y
最小范数条件:
min A x = y ∥ x ∥ = ∥ G y ∥ (9) \min_{Ax = y} \lVert x \rVert = \lVert Gy \rVert \tag{9} Ax=ymin∥x∥=∥Gy∥(9)
此时称矩阵 G G G 为最小范数广义逆矩阵
3. 伴随矩阵 (区别于常规的伴随矩阵)
为此我们定义 A m × n A_{m \times n} Am×n 伴随矩阵的符号为 A n × m # A_{n \times m}^{\#} An×m# , 且有两向量 x n × 1 , y m × 1 x_{n \times 1},y_{m \times 1} xn×1,ym×1. ⟨ A x , y ⟩ \langle Ax,y \rangle ⟨Ax,y⟩ 是 m m m 阶向量空间的内积, 记作 ⟨ A x , y ⟩ m \langle Ax,y \rangle_m ⟨Ax,y⟩m . 而我们定义将 m m m 阶向量空间的内积等价变换为 n n n 阶向量的内积的一个映射:
⟨ A x , y ⟩ m = ⟨ x , A # y ⟩ n (10) \langle Ax,y \rangle _m = \langle x,A^{\#}y \rangle _n \tag{10} ⟨Ax,y⟩m=⟨x,A#y⟩n(10)
此外如果 A # = A A^{\#} = A A#=A , 我们称其为自伴随矩阵. (当然, 我们一般更熟悉他的另一个名字 H e r m i t i a n \mathrm{Hermitian} Hermitian)
这里的伴随矩阵和之前我们说的 (比如在逆矩阵一节里那个) a d j \mathrm{adj} adj 定义有所不同.
在此,还有些性质:
- ( A # ) # = A (A^{\#}) ^{\#} = A (A#)#=A
- ( A B ) # = B # A # (AB)^{\#} = B^{\#} A^{\#} (AB)#=B#A#
- ⟨ A x , B y ⟩ , ∀ x , y ⇔ A # B = 0 \langle Ax,By \rangle , \forall x,y \Leftrightarrow A^{\#}B = 0 ⟨Ax,By⟩,∀x,y⇔A#B=0
- A # = A T A^{\#} = A^T A#=AT ( A A A 为实矩阵) 或 A # = A H A^{\#} = A^H A#=AH ( A A A 为复矩阵)
4. 最小范数解的求取
定理 7: 若 G y Gy Gy 是一致方程 A x = y Ax = y Ax=y 的最小范数解, 当且仅当:
A G A = A , ( G A ) # = G A (11) AGA=A ,\quad (GA)^{\#} = GA \tag{11} AGA=A,(GA)#=GA(11)
前一个条件很容易就能看出来, 是定义所决定的.
至于第二个条件, 我们已经知道通解是 x = A − y + ( I − A − A ) z x = A^-y + (I-A^-A)z x=A−y+(I−A−A)z, 即 x = G y + ( I − G A ) z x = Gy + (I-GA)z x=Gy+(I−GA)z ( 由定理 6 可得 ), 我们只需证明:
∥ G y ∥ ≤ ∥ G y + ( I − G A ) z ∥ , ∀ z \lVert Gy \rVert \leq \lVert Gy + (I-GA)z \rVert , \quad \forall z ∥Gy∥≤∥Gy+(I−GA)z∥,∀z
或者:
∥ G A b ∥ ≤ ∥ G A b + ( I − G A ) z ∥ , ∀ b , z ⇔ ⟨ G A b , ( I − G A ) z ⟩ = 0 , ∀ b , z ⇔ ( G A ) # ( I − G A ) = O ⇔ ( G A ) # = ( G A ) # G A \begin{aligned} & \lVert GAb \rVert \leq \lVert GAb + (I-GA)z \rVert , \quad \forall b,z \\ \Leftrightarrow & \langle GAb,(I-GA)z \rangle = 0 , \quad \forall b,z \\ \Leftrightarrow & (GA)^{\#}(I-GA) = O \\ \Leftrightarrow & (GA)^{\#} = (GA)^{\#}GA \\ \end{aligned} ⇔⇔⇔∥GAb∥≤∥GAb+(I−GA)z∥,∀b,z⟨GAb,(I−GA)z⟩=0,∀b,z(GA)#(I−GA)=O(GA)#=(GA)#GA
因为我们最后要得到 ( G A ) # = G A (GA)^{\#} = GA (GA)#=GA , 即我们易知:
( G A ) # G A = G A G A = G A = ( G A ) # (GA)^{\#}GA = GAGA = GA = (GA)^{\#} (GA)#GA=GAGA=GA=(GA)#
使用 A G A = A AGA = A AGA=A, 易知
( G A ) # G A = G A ⇒ G A G A ≠ G A ⇒ G A ≠ G A (GA)^{\#}GA=GA \Rightarrow GAGA \neq GA \Rightarrow GA \neq GA (GA)#GA=GA⇒GAGA=GA⇒GA=GA
这样就使用了反证法得出结果.
5. 注释
关于最小范数解还有两点需要强调的:
-
充要条件 A G A = A , ( G A ) # = G A AGA = A , \quad (GA)^{\#} = GA AGA=A,(GA)#=GA , 我们能够写成等价形式 G A A # = A # GAA^{\#} = A^{\#} GAA#=A#
-
令 G 1 , G 2 G_1,G_2 G1,G2 是矩阵 A A A 的两个不同的广义逆矩阵, 由上得知 G i A A # = A # G_iAA^{\#} = A^{\#} GiAA#=A#, 即有:
( G 1 − G 2 ) A A # = O ⇔ ( G 1 − G 2 ) A A # = O ⇔ G 1 A = G 2 A (G_1-G_2)AA^{\#} = O \Leftrightarrow (G_1-G_2)AA^{\#} = O \Leftrightarrow G_1A = G_2A (G1−G2)AA#=O⇔(G1−G2)AA#=O⇔G1A=G2A
由于 A x = y Ax = y Ax=y 是一致方程, 即有 r a n k ( [ A , y ] ) = r a n k ( A ) \mathrm{rank}([A, y]) = \mathrm{rank}(A) rank([A,y])=rank(A) , 我们因此可以将 y y y 写作 A b Ab Ab , 其中 b b b 是一个非零向量 , 即有:
G 1 A b = G 2 A b ⇒ G 1 y = G 2 y G_1Ab=G_2Ab \Rightarrow G_1y = G_2y G1Ab=G2Ab⇒G1y=G2y
我们可以看到最小范数解是唯一的.
6. 特别情况
我们讨论 A m × n A_{m \times n} Am×n 具有满行秩 m m m 时, 线性方程 A x = y Ax = y Ax=y 的最小范数解.
我们知道 A A A 满行秩, 即是有增广矩阵 r a n k ( [ A , y ] ) = r a n k ( A ) \mathrm{rank}([A, y]) = \mathrm{rank}(A) rank([A,y])=rank(A) , 即线性方程 A x = y Ax = y Ax=y 是一致方程. 此外, 又因为矩阵乘积 A A H AA^H AAH 可逆, 故存在右伪逆矩阵 A H ( A A H ) − 1 A^H (A A^H) ^{-1} AH(AAH)−1
即我们与之对应的解为:
x ∘ = A H ( A A H ) − 1 y (12) x^{\circ} = A^H(AA^H)^{-1}y \tag{12} x∘=AH(AAH)−1y(12)
但它是否是最小范数解呢?
我们简单的证明一下:
假设 x x x 是不同的任意解,则有:
∥ x ∥ 2 = ∥ x ∘ + x − x ∘ ∥ 2 = ∥ x ∘ ∥ 2 + ∥ x − x ∘ ∥ 2 + 2 ( x ∘ ) H ( x − x ∘ ) (13) \lVert x \rVert ^2 = \lVert x^{\circ} + x - x^{\circ} \rVert ^2 = \lVert x^{\circ} \rVert ^2 + \lVert x -x^{\circ} \rVert ^2 + 2(x^{\circ})^H(x-x^{\circ}) \tag{13} ∥x∥2=∥x∘+x−x∘∥2=∥x∘∥2+∥x−x∘∥2+2(x∘)H(x−x∘)(13)
带入 x ∘ = A H ( A A H ) − 1 y = A H ( A A H ) − 1 A x x^{\circ} = A^H(A A^H) ^{-1}y = A^H(A A^H) ^{-1}Ax x∘=AH(AAH)−1y=AH(AAH)−1Ax 的值, 我们得到:
( x ∘ ) H ( x − x ∘ ) = y H ( A A H ) − 1 A [ I − A H ( A A H ) − 1 A ] x = y H [ ( A A H ) − 1 A − ( A A H ) − 1 A ] x = 0 \begin{aligned} (x^{\circ})^H(x-x^{\circ}) &= y^H(AA^H)^{-1}A [I-A^H(AA^H)^{-1}A]x \\ &= y^H[(AA^H)^{-1}A-(AA^H)^{-1}A]x = 0 \end{aligned} (x∘)H(x−x∘)=yH(AAH)−1A[I−AH(AAH)−1A]x=yH[(AAH)−1A−(AAH)−1A]x=0
即, 我们可以化简得到:
∥ x ∥ 2 = ∥ x ∘ ∥ 2 + ∥ x − x ∘ ∥ 2 \lVert x \rVert ^2 = \lVert x^{\circ} \rVert ^2 + \lVert x -x^{\circ} \rVert ^2 ∥x∥2=∥x∘∥2+∥x−x∘∥2
由于向量范数的非负性, 我们得到:
∥ x ∥ 2 ≥ ∥ x ∘ ∥ 2 \lVert x \rVert ^2 \geq \lVert x^{\circ} \rVert ^2 ∥x∥2≥∥x∘∥2
即 x ∘ x^{\circ} x∘ 确实为最小范数解。
右伪逆矩阵满足最小范数解
右伪逆矩阵 G = A H ( A A H ) − 1 G = A^{H} (AA^H) ^{-1} G=AH(AAH)−1 满足最小范数解的条件 A G A = A , ( G A ) # = G A AGA = A, \quad (GA)^{\#} = GA AGA=A,(GA)#=GA
用伴随矩阵特性 B # = B H B^{\#} = B^H B#=BH 就能证明
五、非一致方程的最小二乘解
对于非一致方程, 其没有严格满足方程的解, 即只能有近似解. 我们需要寻找一个使得方程两边的误差平方和最小的解. 我们称这个解为非一致方程的最小二乘解.
我们使用 x ^ \hat{x} x^ 表示最小二乘解.
而它满足条件:
∥ A x ^ − y ∥ = inf x ∥ A x − y ∥ (14) \lVert A\hat{x}-y \rVert = \inf_{x} \lVert Ax-y \rVert \tag{14} ∥Ax^−y∥=xinf∥Ax−y∥(14)
我们用 $ \inf $ 表示函数的下确界
1. 最小二乘解的条件
定理 8: 令 G G G 为某个矩阵, 要使得 x ^ = G y \hat{x} = Gy x^=Gy 是非一致方程 $Ax = y $的最小二乘解, 当且仅当:
A # A G = A # (15) A^{\#}AG = A^{\#} \tag{15} A#AG=A#(15)
或者等价于:
A G A = A , ( A G ) # = A G (16) AGA = A, \quad (AG)^{\#} = AG \tag{16} AGA=A,(AG)#=AG(16)
我们注意其与上面所讲的一致方程的最小范数解之间的区别
为此, 我们对这个也给予证明:
我们已知前提:
∥ A x ^ − y ∥ ≤ ∥ A x − y ∥ , ∀ x , y \lVert A\hat{x} - y \rVert \leq \lVert Ax - y \rVert , \quad \forall x,y ∥Ax^−y∥≤∥Ax−y∥,∀x,y
而带入 x ^ = G y \hat{x} = Gy x^=Gy
我们有:
∥ A G y − y ∥ ≤ ∥ A x − y ∥ , ∀ x , y ≤ ∥ A G y − y + A w ∥ , ∀ x , w = x − G y ⇔ ⟨ A w , ( A G − I ) y ⟩ = 0 , ∀ y , w ⇔ A # ( A G − I ) = O ⇔ A # A G = A # \begin{aligned} \lVert AGy - y \rVert &\leq \lVert Ax - y \rVert , \quad \forall x,y\\ &\leq \lVert AGy - y + Aw \rVert , \quad \forall x,w = x - Gy \\ &\Leftrightarrow \langle Aw,(AG-I)y \rangle = 0 , \quad \forall y,w \\ &\Leftrightarrow A^{\#}(AG-I) = O \\ &\Leftrightarrow A^{\#}AG = A^{\#} \end{aligned} ∥AGy−y∥≤∥Ax−y∥,∀x,y≤∥AGy−y+Aw∥,∀x,w=x−Gy⇔⟨Aw,(AG−I)y⟩=0,∀y,w⇔A#(AG−I)=O⇔A#AG=A#
我们看得出来, 这个证明过程和之前的一致方程的最小范数解的证明很相似.
-
上面两边同时右乘 $ A $ ,即有:
A # ( A G A ) = A # A A^{\#}(AGA) = A^{\#}A A#(AGA)=A#A
要使得对所有矩阵 $ A $ 都存在,即我们有:
A G A = A AGA = A AGA=A
-
上面两边同时左乘矩阵 G # G^{\#} G# , 我们能够得到:
G # A # A G = ( A G ) # A G = ( A G ) # G^{\#}A^{\#}AG = (AG)^{\#}AG = (AG)^{\#} G#A#AG=(AG)#AG=(AG)#
我们可以使用之前的方式证明其充要条件是:
( A G ) # = A G (AG)^{\#} = AG (AG)#=AG
2. 注释
-
非一致方程的最小二乘解有可能不是唯一的, 但是不同的最小二乘解得到的 A x Ax Ax 和 A x − y Ax - y Ax−y 是唯一的.
-
非一致方程的最小二乘解的通解形式为:
x ^ = G y + ( I − G A ) z , ∀ z (17) \hat{x} = Gy + (I-GA)z , \quad \forall z \tag{17} x^=Gy+(I−GA)z,∀z(17)
3. 特别情况
当非一致方程 A x = y Ax = y Ax=y 的矩阵 A A A 有满列秩的特殊情况, 此时 A H A A^HA AHA 显然是非奇异的.
而此时解:
x ∘ = ( A H A ) − 1 A H y (18) x^{\circ} = (A^HA)^{-1}A^Hy \tag{18} x∘=(AHA)−1AHy(18)
是一个最小二乘解
4. 左伪逆矩阵满足最小二乘解
左伪逆矩阵 G = ( A A H ) − 1 A H G = (AA^H) ^{-1} A^{H} G=(AAH)−1AH 满足最小二乘解的条件 A G A = A , ( A G ) # = A G AGA = A, \quad (AG)^{\#} = AG AGA=A,(AG)#=AG
用伴随矩阵特性 B # = B H B^{\#} = B^H B#=BH 就能证明