线性代数之——对角化和伪逆

这部分我们通过选择更好的基底来产生更好的矩阵。当我们的目标是对角化矩阵时,一个选择可以是一组特征向量基底,另外一个选择可以是两组基底,输入基底和输出基底是不一样的。这些左右奇异向量是矩阵四个基本子空间中标准正交的基向量,它们来自于 SVD。

事实上,所有对 A A A 的分解都可以看作是一个基的改变。在这里,我们只关注两个突出的例子,有一组基的 Λ \Lambda Λ 和有两组基的 Σ \Sigma Σ

S − 1 A S = Λ S^{-1} AS=\Lambda S1AS=Λ 如果输入和输出基都是 A A A 的特征值。
U − 1 A V = Σ U^{-1} AV=\Sigma U1AV=Σ 如果这些基分别是 A T A A^TA ATA A A T AA^T AAT 的特征值。

只有当 A A A 是方阵并且有 n n n 个不相关的特征向量时,我们才能将其对角化成 Λ \Lambda Λ。而通过 SVD,任意矩阵都可以对角化成 Σ \Sigma Σ。如果一个矩阵是对称的、反对称的或者正交的,那么有 A T A = A A T A^TA=AA^T ATA=AAT,在这种情况下,奇异值是特征值的绝对值,上面的两个对角化形式除了一个 − 1 -1 1 或者 e i θ e^{i\theta} eiθ 的因子外是相同的。

另外,注意 Gram-Schmidt 分解 A = Q R A=QR A=QR 只选择了一个新的基底,也就是通过 Q Q Q 给出的输出正交基,而输入基底则是标准基由 I I I 给出。我们只得到一个上三角矩阵而不是对角矩阵, A = Q R I A=QRI A=QRI ,输出基矩阵在左边而输入基矩阵在右边。

1. 相似矩阵: S , S − 1 A S   和   W − 1 A W S,S^{-1}AS \space 和 \space W^{-1}AW S,S1AS  W1AW

让我们以一个方阵和一组基开始,输入空间 V V V 和输出空间 W W W 都是 R n R ^n Rn。在标准基下,线性变换 T T T 是乘以矩阵 A A A。如果我们改变了输入空间的基,那么矩阵就变成了 A M AM AM M M M 是基变换矩阵;如果我们改变了输出空间的基,那么矩阵就变成了 M − 1 A M^{-1}A M1A

如果以上面同样的方式同时改变了两组基,那么新的矩阵就为 M − 1 A M M^{-1}AM M1AM。而一组好的基是矩阵的特征向量,我们就有 S − 1 A S = Λ S^{-1} AS=\Lambda S1AS=Λ

当基中包含特征向量 x 1 , ⋯   , x n \boldsymbol{x_1},\cdots,\boldsymbol{x_n} x1,,xn 时,变换 T T T 对应的矩阵是 Λ \Lambda Λ

  • 证明
    要找到矩阵的第一列,输入第一个基向量 x 1 \boldsymbol{x_1} x1,由 A x 1 = λ 1 x 1 A\boldsymbol{x_1}=\lambda_1\boldsymbol{x_1} Ax1=λ1x1 可得矩阵的第一列为 ( λ 1 , 0 , ⋯   , 0 ) (\lambda_1, 0, \cdots,0) (λ1,0,,0)。同理可得其它的每一列,最终矩阵为一个对角矩阵,对角线上元素为特征值。

  • 例子

要找到投影到直线 y = − x y=-x y=x 的变换矩阵。坐标 ( 1 , 0 ) (1, 0) (1,0) 投影到 ( 0.5 , − 0.5 ) (0.5, -0.5) (0.5,0.5),坐标 ( 0 , 1 ) (0, 1) (0,1) 投影到 ( − 0.5 , 0.5 ) (-0.5, 0.5) (0.5,0.5),所以在标准基下,变换矩阵为

A = [ 0.5 − 0.5 − 0.5 0.5 ] A = \begin{bmatrix} 0.5&-0.5 \\ -0.5&0.5\end{bmatrix} A=[0.50.50.50.5]

如果以 A A A 的特征向量 x 1 = ( 1 , − 1 ) \boldsymbol{x_1}=(1, -1) x1=(1,1) x 2 = ( 1 , 1 ) \boldsymbol{x_2}=(1, 1) x2=(1,1) 为基的话: x 1 \boldsymbol{x_1} x1 与直线共线,投影后还是其自身; x 2 \boldsymbol{x_2} x2 垂直于直线,投影后为零向量,所以在这组基下的变换矩阵为

Λ = [ 1 0 0 0 ] \Lambda = \begin{bmatrix} 1&0 \\ 0&0\end{bmatrix} Λ=[1000]

如果选择另外一组基 v 1 = w 1 = ( 2 , 0 ) \boldsymbol{v_1}=\boldsymbol{w_1}=(2, 0) v1=w1=(2,0) v 2 = w 2 = ( 1 , 1 ) \boldsymbol{v_2}=\boldsymbol{w_2}=(1, 1) v2=w2=(1,1)

我们可以一列一列找到变换矩阵, v 1 = ( 2 , 0 ) \boldsymbol{v_1}=(2, 0) v1=(2,0),投影后坐标为 ( 1 , − 1 ) = w 1 − w 2 (1, -1)=\boldsymbol{w_1}-\boldsymbol{w_2} (1,1)=w1w2 v 2 = ( 1 , 1 ) \boldsymbol{v_2}=(1, 1) v2=(1,1),投影后为零向量,所以在这组基下的变换矩阵为

B = [ 1 0 − 1 0 ] B = \begin{bmatrix} 1&0 \\ -1&0\end{bmatrix} B=[1100]

另外我们也可以利用基变换矩阵,由 V , W → I V,W\to I V,WI 标准基的基变换矩阵 M M M

M = [ 2 1 0 1 ] M = \begin{bmatrix} 2&1 \\ 0&1\end{bmatrix} M=[2011]

接下来,我们先将输入变换到标准基下,再应用标准基下的变换矩阵 A A A,最后再将输出变换到 W W W 空间下,这样得到的以 V , W V,W V,W 为基的变换矩阵就为

B = M − 1 A M = [ 1 0 − 1 0 ] B=M^{-1}AM=\begin{bmatrix} 1&0 \\ -1&0\end{bmatrix} B=M1AM=[1100]

这和上面的结果是一样的,还说明了 B B B A A A 是相似的,对于任意的非标准基底,我们都可以采用类似的方式来求取变换矩阵。

2. SVD

现在,输入基 v 1 , ⋯   , v n \boldsymbol{v_1},\cdots,\boldsymbol{v_n} v1,,vn 和输出基 u 1 , ⋯   , u m \boldsymbol{u_1},\cdots,\boldsymbol{u_m} u1,,um 不一样,事实上,输入空间 R n R^n Rn 可以和输出空间 R m R^m Rm 不一样。同样,最好的矩阵依然是对角矩阵,只不过大小是 m × n m×n m×n 的。为了到达对角矩阵 Σ \Sigma Σ,每个输入向量 v j \boldsymbol{v_j} vj 必须被变换到输出向量 u j \boldsymbol{u_j} uj 的一个倍数,而这个倍数就是对角线上的奇异值。

要说明的是, A A A Σ \Sigma Σ 代表的是相同的变换,矩阵 A A A 利用 R n R^n Rn R m R^m Rm 中的标准基,而 Σ \Sigma Σ 则以 v \boldsymbol v v u \boldsymbol u u 分别作为输入基和输出基,正交矩阵 V V V U U U 则代表基变换矩阵。

3. 极分解

每个复数都可以表示成极坐标的形式 r e i θ re^{i\theta} reiθ,将这些数想象成一个 1 × 1 1×1 1×1 的矩阵,那么 r ⩾ 0 r\geqslant 0 r0 可以看作是是一个半正定矩阵 H H H e i θ e^{i\theta} eiθ 可以看作是一个正交矩阵 Q Q Q,因为 ∣ e i θ ∣ = ∣ c o s θ + i s i n θ ∣ = 1 |e^{i\theta}| = |cos\theta+isin\theta|=1 eiθ=cosθ+isinθ=1。极分解将上述的分解扩展到矩阵:正交乘以正定, A = Q H A=QH A=QH

每个实的方阵都可以分解成 A = Q H A=QH A=QH 的形式,其中 Q Q Q 是一个正交矩阵, H H H 是一个对称的半正定矩阵。如果 A A A 可逆,那么 H H H 是正定的。

  • 证明

V T V = I → A = U Σ V T = U V T V Σ V T = ( U V T ) ( V Σ V T ) = Q H V^TV = I \to A=U\Sigma V^T=UV^TV\Sigma V^T = (UV^T)(V\Sigma V^T)=QH VTV=IA=UΣVT=UVTVΣVT=(UVT)(VΣVT)=QH

第一项两个正交矩阵的乘积还是正交矩阵,第二项是半正定的因为其特征值位于 Σ \Sigma Σ 的对角线上,都大于等于零。

H 2 = V Σ V T V Σ V T = V Σ 2 V T = A T A H^2=V\Sigma V^TV\Sigma V^T=V\Sigma^2 V^T=A^TA H2=VΣVTVΣVT=VΣ2VT=ATA

H H H A T A A^TA ATA 的对称正定平方根。同样地,我们有:

U T U = I → A = U Σ V T = U Σ U T U V T = ( U Σ U T ) U V T = K Q U^TU = I \to A=U\Sigma V^T=U\Sigma U^TUV^T = (U\Sigma U^T)UV^T=KQ UTU=IA=UΣVT=UΣUTUVT=(UΣUT)UVT=KQ

4. 伪逆

矩阵 A A A 乘以行空间中的 v i \boldsymbol{v_i} vi 得到列空间中的 σ i u i \sigma_i\boldsymbol{u_i} σiui A − 1 A^{-1} A1 应该做相反的操作。如果有 A v = σ u A\boldsymbol{v}=\sigma\boldsymbol{u} Av=σu,那么 A − 1 u = v / σ A^{-1}\boldsymbol{u}={\boldsymbol{v}}/{\sigma} A1u=v/σ,如果逆矩阵存在的话。

伪逆 A + A^+ A+ 是一个 n × m n×m n×m 的矩阵。可以看到,如果 A − 1 A^{-1} A1 存在的话,那么伪逆也就等于逆矩阵,在这种情况下 n = m = r n=m=r n=m=r A + = A − 1 = ( U Σ V T ) − 1 = V Σ − 1 U T A^+=A^{-1}=(U\Sigma V^T)^{-1}=V\Sigma^{-1}U^T A+=A1=(UΣVT)1=VΣ1UT。只有当 r < m r<m r<m 或者 r < n r<n r<n 时我们才需要伪逆,伪逆有着相同的秩 r r r

r r r 个列空间中的向量被送回到了行空间,其它的向量位于左零空间则被送回到了零向量。注意到 Σ + Σ \Sigma^+\Sigma Σ+Σ 是我们能得到的最接近于恒等矩阵的矩阵,它是一个投影矩阵,部分是 I I I 部分是 0 0 0

假设 r = n < m r=n<m r=n<m,那么 A T A A^TA ATA 是可逆的,

( A T A ) − 1 A T ⏟ 左逆  A + A = I → A ( A T A ) − 1 A T = P = 投 影 到 列 空 间 的 投 影 矩 阵 \underbrace{(A^TA)^{-1}A^T}_{\text{左逆 $A^+$}}A=I \to A(A^TA)^{-1}A^T=P=投影到列空间的投影矩阵 左逆 A+ (ATA)1ATA=IA(ATA)1AT=P=

假设 r = m < n r=m<n r=m<n,那么 A A T AA^T AAT 是可逆的,

A A T ( A A T ) − 1 ⏟ 右逆  A + = I → A T ( A A T ) − 1 A = P = 投 影 到 行 空 间 的 投 影 矩 阵 A\underbrace{A^T(AA^T)^{-1}}_{\text{右逆 $A^+$}}=I \to A^T(AA^T)^{-1}A=P=投影到行空间的投影矩阵 A右逆 A+ AT(AAT)1=IAT(AAT)1A=P=

之前我们假设 A T A A^TA ATA 是可逆的,那么当 A x = b Ax=b Ax=b 不可解的时候,我们求助于方程 A T A x ^ = A T b A^TA\hat x=A^Tb ATAx^=ATb 得到最小二乘解。现在矩阵 A A A 可能具有相关的列,即 r < n r<n r<n,上述方程可能有很多解,其中一个解来自于伪逆 x + = A + b x^+=A^+b x+=A+b

我们可以验证, A T A A + b = A T b A^TAA^+b=A^Tb ATAA+b=ATb,因为 b b b 可以分解为两部分, p = A A + b p=AA^+b p=AA+b 是其投影到列空间的分量, e = b − A A + b e=b-AA^+b e=bAA+b 是左零空间的分量,乘以 A T A^T AT 后为零向量。

任意零空间的向量可以被加到 x + x^+ x+ 上得到其它的解 x ^ \hat x x^,但 x + x^+ x+ 是其中最短的一个。

获取更多精彩,请关注「seniusen」!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值