线性代数学习笔记10-4：左右逆、伪逆/M-P广义逆（从四个子空间和SVD角度理解）

本文链接：https://blog.csdn.net/Insomnia_X/article/details/126712928

下面讨论 $m\times n$ 的秩为 $r$ 的矩阵

对于不同情况，讨论逆矩阵

两侧逆矩阵 2-sided inverse

这也是一般所说的“逆矩阵”的含义
方阵 $\boldsymbol{A}$ 满秩 $r = m = n$ ，那么有 $\boldsymbol{A}^{-1} \boldsymbol{A}^{=} \boldsymbol{A} \boldsymbol{A}^{-1}=\boldsymbol{I}$ ，其中 $\boldsymbol{A}^{-1}$ 为两侧逆矩阵（简称逆矩阵）

更一般的，对于长方形的矩阵，可以推广逆矩阵的概念，得到单侧逆

单边逆 one-sided inverse

一般的 $n\times m$ 长方形矩阵，不可能有两侧逆矩阵
原因：假如矩阵向量相乘得到零向量 $\mathbf A\mathbf x=\mathbf 0$ ，对应于降维的线性变换，没有逆矩阵能够还原这个过程；
因此我们说：零空间的存在（ $\boldsymbol{A}$ 的零空间和 $\boldsymbol{A}^T$ 的零空间中有非零向量）毁掉了逆矩阵，而长方形矩阵 $\boldsymbol{A}$ 和 $\boldsymbol{A}^T$ 总有一个的零空间维数不为0（ $n-r\neq 0或m-r\neq 0$ ）

具体在下面的四个子空间讨论的部分还会讲到

左逆矩阵 Left inverse

矩阵 $\boldsymbol{A}$ 列满秩 $r=n\leq m$ ，存在左逆矩阵 $\boldsymbol{A}_{\text {left }}^{-1}$ ，满足 ${\boldsymbol{A}_{\text {left }}^{-1}}_{n\times m} \boldsymbol{A}_{m\times n}=\boldsymbol{I}_{n\times n}$ ；
其中左逆矩阵 $\boldsymbol{A}_{\text {left }}^{-1}=\left(\boldsymbol{A}^{T} \boldsymbol{A}\right)^{-1} \boldsymbol{A}^{T}$ （注意，实际上有很多左逆，这里写出的是其中一个）

前置知识：
对于长方形矩阵， $\boldsymbol{A}^{T} \boldsymbol{A}$ 是很好的观察对象；
$\boldsymbol{A}^{T} \boldsymbol{A}$ 至少为半正定矩阵；当 $\boldsymbol{A}$ 列满秩 $r = n$ 时， $\boldsymbol{A}^{T} \boldsymbol{A}$ 正定，进而行列式大于0、满秩、可逆
详见线性代数学习笔记8-4：正定矩阵

证明：
假如 $\boldsymbol{A}$ 列满秩 $r = n$ ，则 $(\boldsymbol{A}^{T} \boldsymbol{A})_{n\times n}$ 满秩 $r = n$ 、可逆，则有 $\left(\boldsymbol{A}^{T} \boldsymbol{A}\right)^{-1} \boldsymbol{A}^{T} \boldsymbol{A}=\boldsymbol{I}$
由上式可得， $\boldsymbol{A}$ 的左逆矩阵 $\boldsymbol{A}_{\text {left }}^{-1}=\left(\boldsymbol{A}^{T} \boldsymbol{A}\right)^{-1} \boldsymbol{A}^{T}$

注意，上面介绍的左逆矩阵，也是最小二乘法能够奏效的核心所在
之前说过，根据最小二乘法， $\mathbf A \boldsymbol x=\boldsymbol b$ 无解时，转而求解 $\mathbf A^T\mathbf A \hat{\boldsymbol x}=\mathbf A^T\boldsymbol b$ ，该方程的解 $\tilde{\boldsymbol x}$ 会是“最优解”
实际上，其理论依据就在于，当 $\mathbf A$ 列满秩 $r = n$ 时， $\mathbf A^T \mathbf A$ 为正定矩阵，进而可逆（后一个方程必有解）
详见线性代数学习笔记8-4：正定矩阵、最小二乘法与半正定矩阵A^T A
后面将会看到，当 $\mathbf A$ 不是列满秩时，我们需要用伪逆矩阵来求最小范数解

右逆矩阵 Right inverse

矩阵 $\boldsymbol{A}$ 行满秩 $r=m\leq n$ ，存在右逆矩阵 $\boldsymbol{A}_{\text {right }}^{-1}$ ，满足 $\boldsymbol{A}_{m\times n}{\boldsymbol{A}_{\text {right}}^{-1}}_{n\times m} =\boldsymbol{I}_{m\times m}$ ；
其中右逆矩阵 $\boldsymbol{A}_{\text {right}}^{-1}=\boldsymbol{A}^{T}\left( \boldsymbol{A\boldsymbol{A}^{T}}\right)^{-1}$ （注意，实际上有很多右逆，这里写出的是其中一个）

证明思路和过程类似上面，即基于 $\boldsymbol{A\boldsymbol{A}^{T}}$ 的良好性质展开研究

右乘左逆矩阵/左乘右逆矩阵，会发生什么

首先给出结论：右乘左逆矩阵/左乘右逆矩阵，无法得到单位阵 $\boldsymbol I$ ，而是得到 $\boldsymbol A$ 列空间/行空间的投影矩阵

对于列满秩 $r=n\leq m$ （存在左逆）的情况，右乘左逆矩阵的结果为： $\boldsymbol{A}\boldsymbol{A}_{\text {left }}^{-1}=\boldsymbol{A}\left(\boldsymbol{A}^{T} \boldsymbol{A}\right)^{-1} \boldsymbol{A}^{T}$
这正是将 $\boldsymbol{R}^m$ 空间中的向量投影到 $\boldsymbol{A}$ 的列空间（维度 $r$ ）的投影矩阵 $\boldsymbol{P}_{m\times m}=\boldsymbol{A}\left(\boldsymbol{A}^{T} \boldsymbol{A}\right)^{-1} \boldsymbol{A}^{T}$

若希望 $\boldsymbol{A}\boldsymbol{A}_{\text {left }}^{-1}=\boldsymbol I$ ，那么等价于要求上述投影矩阵为单位阵（无需投影），对应于 $\boldsymbol{A}$ 的列空间本身就是整个 $\boldsymbol{R}^m$ 空间的情况，即 $r = m$ 的情况（行列都满秩的方阵，与假设不符）
可见，左逆矩阵不可能同时满足“右逆”，即右乘左逆矩阵无法得到单位阵 $\boldsymbol I$ ，因此 $n\times m$ 长方形矩阵不可能有两侧逆矩阵

同理，左乘右逆矩阵得到 $\boldsymbol{A}_{\text {right }}^{-1}\boldsymbol{A}= \boldsymbol{A}^{T}\left(\boldsymbol{A}\boldsymbol{A}^{T}\right)^{-1}\boldsymbol{A}=\boldsymbol{P}_{n\times n}$ ，这就是将 $\boldsymbol{R}^n$ 空间中的向量投影到 $\boldsymbol{A}$ 的行空间（维度 $r$ ）的投影矩阵
可见，右逆矩阵矩阵不可能同时满足“左逆”，即左乘右逆逆矩阵无法得到单位阵 $\boldsymbol I$

小结：逆矩阵存在性与四个子空间的关系

首先，回顾四个子空间的图像如下
在这里插入图片描述

其中，行空间和零空间互为正交补；列空间和左零空间互为正交补

方阵 $\boldsymbol{A}$ 满秩 $r = m = n$ ，有两侧逆

矩阵 $\boldsymbol{A}$ 的零空间维度 $n - r = 0$ 、左零空间维度 $m - r = 0$ （只有零向量）；
矩阵 $\boldsymbol{A}$ 列满秩 $r=n\leq m$ ，只有左逆

矩阵 $\boldsymbol{A}$ 的零空间维度 $n - r = 0$
矩阵 $\boldsymbol{A}$ 行满秩 $r=m\leq n$ ，只有右逆

矩阵 $\boldsymbol{A}$ 的左零空间 $N(\boldsymbol{A}^T)$ 维度 $m - r = 0$ （只有零向量）；
矩阵 $\boldsymbol{A}$ 行列都不满秩，即 $r < m$ 且 $r < n$

矩阵 $\boldsymbol{A}$ 的零空间维度 $n - r > 0$ 、左零空间维度 $m - r > 0$

零空间和左零空间都存在，导致了逆矩阵、左逆、右逆都不存在，由此引入伪逆，记为 $\boldsymbol{A}^+$ ，下面详细介绍

伪逆矩阵Pseudo-inverse / M-P广义逆

规律：零空间的存在，导致了逆矩阵不存在

实际上， $\boldsymbol{A}$ 是将行空间中向量一一映射到列空间的变换，而“逆矩阵”就是将列空间中向量一一反向映射到行空间的变换

对于 $\mathbf R^n$ 中的所有向量 $\mathbf x$ ，可以划分为两部分：

位于 $\mathbf A$ 的零空间中的 $\mathbf x$ 满足 $\mathbf A\mathbf x=\mathbf 0$ ； $\mathbf x$ 映射为零向量，这个映射不可逆（零向量与任意矩阵相乘得到零向量）
位于 $\mathbf A$ 的行空间中的 $\mathbf x$ 满足 $\mathbf {A}\boldsymbol x=\mathbf u(\mathbf u\neq0)$ ，行空间中的 $\mathbf x$ 映射为 $\mathbf A$ 的列空间中的一个非零向量 $\mathbf u=\mathbf A\mathbf x$ ，且这个映射为一一映射，是可逆的（视为对 $\mathbf A$ 的列向量的线性组合）；

可以归纳规律：零空间的存在（ $\boldsymbol{A}$ 的零空间和 $\boldsymbol{A}^T$ 的零空间中有非零向量）导致逆矩阵不存在
原因：

从四个子空间角度：
A. 若零空间不存在，以在行空间和列空间之间建立一一映射，矩阵可逆
B. 零空间存在时，零空间中的 $\mathbf x$ 满足 $\mathbf A\mathbf x=\mathbf 0$ ，对应于降维的线性变换，没有逆矩阵能够还原这个过程，此时只能找到伪逆/M-P广义逆 $\boldsymbol{A}^+$ ，广义逆使得行空间中的向量 $\boldsymbol{x}$ 可以被还原 $\boldsymbol{A}^+\boldsymbol{A}\boldsymbol{x}=\boldsymbol{x}$ ，而零空间中的向量 $\boldsymbol{x}$ 被 $\boldsymbol{A}$ 映射为零向量后，只能被 $\boldsymbol{A}^+$ 再次映射为零向量： $\boldsymbol{A}^+\boldsymbol{A}\boldsymbol{x}=\boldsymbol{0}$
从SVD角度（若矩阵的SVD为 $\boldsymbol{A}=\boldsymbol{U} \boldsymbol{\Sigma} \boldsymbol{V}^{T}$ ）：

四个子空间和SVD的关系：

矩阵的SVD为 $\boldsymbol{A}_{m\times n} =\boldsymbol{U}_{m\times m} \boldsymbol{\Sigma}_{m\times n} \boldsymbol{V}^{T}_{n\times n}$

图中红色部分对应的是 $\mathbf {A}$ 的行空间中的第一部分标准正交基 $\mathbf{v}_{i}(i=1,2,...,r)$ ，线性变换 $\mathbf {A}$ 将其映射生成到列空间到中的一组标准正交基，满足 $\mathbf {A}\mathbf v_i=\sigma_i \mathbf u_i$ ， $\sigma_i$ 组成了红色部分的对角矩阵 $\hat{\mathbf \Sigma}_{r\times r}$
图中蓝色部分对应零空间中的第二部分标准正交基 $\mathbf v_i(i=r+1,r+2,...,n)$ ，满足 $\mathbf {A}\mathbf v_i=0$ ，对应 $\boldsymbol{\Sigma}$ 中的右下角零元素（这部分对应了将零空间的向量映射到零向量 $\mathbf {A}\mathbf v_i=0$ )

总之，行/列不满秩，导致了 $\boldsymbol{\Sigma}$ 出现右下角的0元素部分，进而矩阵和其他矩阵相乘就不可得到单位阵（从而不存在逆矩阵），这再次对应了前面说的“零空间的存在使得逆矩阵不存在”

M-P广义逆

由上，矩阵 $\boldsymbol{A}$ 行列都不满秩（ $r < m$ 且 $r < n$ ）时，既没有左逆也没有右逆，此时我们能找到的“最好的逆”就是伪逆矩阵

满秩方阵才有逆矩阵；
当矩阵不满秩/矩阵不是方阵，则只有"伪逆/广义逆"，这是逆矩阵的推广

若矩阵 $\boldsymbol{A}$ 的SVD为 $\boldsymbol{A}=\boldsymbol{U} \boldsymbol{\Sigma} \boldsymbol{V}^{T}$ ，那么伪逆矩阵 $\boldsymbol{A}^{+}=\boldsymbol{V} \boldsymbol{\Sigma}^{+} \boldsymbol{U}^{T}$
伪逆满足：

$\boldsymbol{A} \boldsymbol{A}^{+} \boldsymbol{A}=\boldsymbol{A}$
$\boldsymbol{A}^{+} \boldsymbol{A} \boldsymbol{A}^{+}=\boldsymbol{A}^{+}$
$\boldsymbol{A} \boldsymbol{A}^{+}=\left(\boldsymbol{A} \boldsymbol{A}^{+}\right)^{T}$
$\boldsymbol{A}^{+} \boldsymbol{A}=\left(\boldsymbol{A}^{+} \boldsymbol{A}\right)^{T}$

伪逆矩阵的原理：从SVD角度理解

我们从SVD的视角来拆解问题：现在希望求一个伪逆，其与原矩阵的乘积尽可能接近单位阵；
但要注意，当行列都不满秩（ $r < m$ 且 $r < n$ ）时，矩阵与其他矩阵相乘，不可能得到单位阵，只能尽可能接近；

做SVD后 $\boldsymbol{A}=\boldsymbol{U} \boldsymbol{\Sigma} \boldsymbol{V}^{T}$ ：

A. 若 $\boldsymbol{A}$ 满秩， $\boldsymbol{A}=\boldsymbol{U}\left[\begin{array}{lll} \sigma_{1} & &\\ & \ddots &\\ & & \sigma_{r} \end{array}\right]_{n\times n}\boldsymbol{V}^{T}$ ，则矩阵可逆：逆矩阵为 $\boldsymbol{A}^{-1}=\boldsymbol{V}\boldsymbol{\Sigma}^{-1}\boldsymbol{U}^{T}$
B. 若 $\boldsymbol{A}$ 行/列不满秩， $\boldsymbol{A}=\boldsymbol{U}\begin{bmatrix} \sigma _1 & & & 0\\ & \sigma _2 & & \\ & & \ddots & \\ 0 & & &0 \end{bmatrix}_{m\times n}\boldsymbol{V}^{T}$ (由于上述的零空间的存在， $\boldsymbol{\Sigma}$ 的右下角出现0元素)，这从根本上决定了 $\boldsymbol{A}$ 与其他矩阵相乘，不可能得到单位阵，寻找M-P广义逆，应保证它与原矩阵的乘积尽可能接近单位阵，故M-P广义逆 $\boldsymbol{A}^{+}=\boldsymbol{V}\boldsymbol{\Sigma}^{+}\boldsymbol{U}^{T}$ ，其中 $\boldsymbol {\varSigma ^ + } =\begin{bmatrix} \frac{1}{\sigma _1} & & & 0\\ & \frac{1}{\sigma _2} & & \\ & & \ddots & \\ 0 & & &0 \end{bmatrix}_{n\times m}$ ，满足 ${\boldsymbol \varSigma ^ + }\boldsymbol \varSigma = \begin{bmatrix} 1 & & & 0\\ & 1 & & \\ & & \ddots & \\ 0 & & &0 \end{bmatrix}_{n\times n}$ 和 $\boldsymbol \varSigma{\boldsymbol \varSigma ^ + } = \begin{bmatrix} 1 & & & 0\\ & 1 & & \\ & & \ddots & \\ 0 & & &0 \end{bmatrix}_{m\times m}$

i.e. 构造伪逆矩阵的思路是，尽量使 $\boldsymbol{\Sigma}\boldsymbol{\Sigma}^{+}$ 和 $\boldsymbol{\Sigma}^{+}\boldsymbol{\Sigma}$ 中的左上角的r阶对角阵为单位阵（虽然不能得到整个单位阵，但尽量接近单位阵；而 $\boldsymbol{\Sigma}\boldsymbol{\Sigma}^{+}=\boldsymbol{\Sigma}^{+}\boldsymbol{\Sigma}=\boldsymbol I$ 就是矩阵可逆的情况）

实际上，有很多的伪逆矩阵 $\boldsymbol{\Sigma}^{+}$ 都能满足上述要求（因为 $\boldsymbol{\Sigma}$ 有右下角的0元素部分，不管 $\boldsymbol{\Sigma}^{+}$ 如何，这部分的乘积结果都是0），我们这里选择的是其中最简洁、不参杂多余非零元素的一个伪逆矩阵

右乘左逆矩阵/左乘右逆矩阵，会发生什么

对于 $\boldsymbol{A}=\boldsymbol{U} \boldsymbol{\Sigma} \boldsymbol{V}^{T}$

$\boldsymbol{A}$ 左乘伪逆矩阵，得到 $\boldsymbol{A}\boldsymbol{A}^{+}=\boldsymbol{U} \boldsymbol{\Sigma} \boldsymbol{V}^{T}\boldsymbol{V} \boldsymbol{\Sigma}^{+} \boldsymbol{U}^{T}=\boldsymbol{U} \boldsymbol{\Sigma}\boldsymbol{\Sigma}^{+} \boldsymbol{U}^{T}$ ，其中 $\boldsymbol{\Sigma}\boldsymbol{\Sigma}^{+}$ 左上角包含一个单位阵，如上;

$\boldsymbol{A}$ 右乘伪逆矩阵，得到 $\boldsymbol{A}^{+}\boldsymbol{A}=\boldsymbol{V} \boldsymbol{\Sigma}^{+} \boldsymbol{U}^{T}\boldsymbol{U} \boldsymbol{\Sigma} \boldsymbol{V}^{T}=\boldsymbol{V} \boldsymbol{\Sigma}^{+}\boldsymbol{\Sigma} \boldsymbol{V}^{T}$ ，其中 $\boldsymbol{\Sigma}^{+}\boldsymbol{\Sigma}$ 左上角包含一个单位阵，如上；

矩阵左乘/右乘伪逆矩阵，都不能得到单位阵，但是能得到投影矩阵（类似上面的右乘左逆矩阵）

右乘伪逆，得到投影矩阵 $\boldsymbol{A}\boldsymbol{A}^{+}$ （将向量投影到 $\boldsymbol{A}$ 的列空间）；

例如，对于 $\boldsymbol{A}\boldsymbol{A}^{+}\mathbf x=\boldsymbol{U} \boldsymbol{\Sigma}\boldsymbol{\Sigma}^{+} \boldsymbol{U}^{T}\mathbf x$
$\boldsymbol{U}^{T}\mathbf x$ 得到向量 $\mathbf x$ 在 $\boldsymbol{U}$ 这个单位正交基上的坐标；
再乘以 $\boldsymbol{\Sigma}\boldsymbol{\Sigma}^{+}$ （左上角为r阶单位阵）相当于只保留向量 $\mathbf x$ 在 $\boldsymbol{U}$ 这个单位正交基上中属于 $\boldsymbol{A}$ 列空间（r维）的那部分；
最后再乘以单位正交基 $\boldsymbol{U}$ ，就是 $\mathbf x$ 在 $\boldsymbol{A}$ 列空间的投影了

左乘伪逆，得到投影矩阵 $\boldsymbol{A}^{+}\boldsymbol{A}$ （将向量投影到 $\boldsymbol{A}$ 的行空间）；
投影矩阵 $\boldsymbol{\Sigma}\boldsymbol{\Sigma}^{+}$ 和 $\boldsymbol{\Sigma}^{+}\boldsymbol{\Sigma}$ 的SVD中，左上角都包含一个单位阵，这接近于真正可逆的情况