【TSVD】（一）range、null space 和 rank

陋室逢雨

已于 2023-10-11 22:19:14 修改

阅读量8.6k

点赞数 5

分类专栏：算法推导文章标签：线性代数机器学习深度学习

于 2020-11-08 11:00:01 首次发布

本文链接：https://blog.csdn.net/hzwwpgmwy/article/details/109556596

版权

算法推导专栏收录该内容

16 篇文章

订阅专栏

本文探讨了非线性问题优化中的自由度可观性问题，并介绍了TSVD技术的应用。通过线性空间概念，如span、range、kernel及SVD分解，解析了如何自动判定自由度的可观性，以及如何在优化中据此更新或固定自由度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在做非线性问题的优化时，难免会遇到一些自由度不可观的问题，如果这个自由度在理论上就是不可观的（比如，不管怎么运动都无法令这个自由度从不可观变成可观），那么在优化的时候就要单独地把这个自由度设置成fixed.
如果这个自由度理论上是可观的，而这并不表示该自由度在现实中一定是可观的（比如，需要满足一定的运动条件才能令这个自由度可观），也就是，对该自由度约束越多，可观性越强，反之亦然.
那么在优化中如何自动判定当前自由度是否可观呢？可观时，更新该自由度，不可观时，fixed该自由度. 下面介绍的TSVD就是为了解决这个问题.

1. 线性空间

1.1 span

假设存在一向量空间 $\mathcal{V}$ ，span也是一个向量空间，它由一组来自 $\mathcal{V}$ 的向量 $\left\{\mathbf{v}_{1}, \ldots, \mathbf{v}_{n}\right\}$ 的全部可能的任意组合构成
$\operatorname{span}\left[\left\{\mathbf{v}_{1}, \ldots, \mathbf{v}_{n}\right\}\right]=\left\{\sum_{i=1}^{n} c_{i} \mathbf{v}_{i} \mid c_{i} \in \mathcal{F}\right\}$

线性无关的定义
如果只有当 $c_{i}$ 都为零时，才能组合得到零向量的话，那么这组向量就是线性无关的，也就是说，这组向量中任何一个都不能通过其它向量组合得到

1.2 range定义

也叫，列空间/值域
线性映射（linear map） $f$ 可以将 $\mathcal{V}$ mapping到另一个向量空间 $\mathcal{W}$ ，linear map $f$ 的range or image定义如下：
$[f]=\{\mathbf{w} \in \mathcal{W} \mid \mathbf{w}=f(\mathbf{v}), \mathbf{v} \in \mathcal{V}\}$

range是 $\mathcal{W}$ 的一个子集

1.3 kernel/nullspace定义

$\text { kernel }[f]=\{\mathbf{v} \in \mathcal{V} \mid f(\mathbf{v})=\mathbf{0}, \mathbf{0} \in \mathcal{W}\}$

kernel是 $\mathcal{V}$ 的一个子集

1.4 rank-nullity theorem

$\operatorname{dim}[\text { kernel }[f]]+\operatorname{dim}[\text { range }[f]]=\operatorname{dim}[\mathcal{V}]$

2. 线性映射矩阵

定义一个线性映射 $A_{m \times n}$ ，表示可以将任意向量 $\mathbf{v_{n \times 1}} \in \mathcal{V}$ 映射到 $\mathbf{w_{m \times 1}} \in \mathcal{W}$

2.1 矩阵的range定义

$\text { range }[\mathbf{A}]=\{\mathbf{w} \in \mathcal{W} \mid \mathbf{w}=\mathbf{A} \mathbf{v}, \mathbf{v} \in \mathcal{V}\}$

矩阵 $A$ 的列向量集合为 $\left\{\mathbf{a}_{1}, \ldots, \mathbf{a}_{n}\right\}$ ，那么range也可以定义成：

$\operatorname{range}[\mathbf{A}]=\operatorname{span}\left[\left\{\mathbf{a}_{1}, \ldots, \mathbf{a}_{n}\right\}\right]$

进一步，矩阵的range的秩与矩阵的秩相等
$\operatorname{rank}[\mathbf{A}]=\operatorname{dim}[\text { range }[\mathbf{A}]]$

2.2 矩阵的kernel定义

$\text { null }[\mathbf{A}]=\{\mathbf{v} \in \mathcal{V} \mid \mathbf{A} \mathbf{v}=\mathbf{0}, \mathbf{0} \in \mathcal{W}\}$

2.3 矩阵的rank-nullity theorem

$\operatorname{dim}[\text { null }[\mathbf{A}]]+\operatorname{rank}[\mathbf{A}]=n$

3. SVD分解中的range、nullspace和rank

$A=UDV^T \rightarrow A V = U D$

比较column（矩阵块乘法）可得：
$v_{i}=\sigma_{i} u_{i}$

假设 $r ank (A) = r$ ，
当奇异值大于零时（ $\frac{A v_{i}}{\sigma_{i}}= u_{i}$ ），参照2.1中矩阵range的定义可知，
$\operatorname{range}[\mathbf{A}]=\operatorname{span}\left[\left\{\mathbf{u}_{1}, \ldots, \mathbf{u}_{r}\right\}\right]$

当奇异值等于0时，可得，
$\text { null }[\mathbf{A}]=\operatorname{span}\left[\left\{\mathbf{v}_{r+1}, \ldots, \mathbf{v}_{n}\right\}\right]$

4. 近似矩阵

假设矩阵 $A$ 的rank是 $r$ ，其可以写成：
$\mathbf{A} =\sum_{i=1}^{r} \sigma_{i} \mathbf{u}_{i} \mathbf{v}_{i}^{T}$

对其进行low-rank approximation，得到近似矩阵 $A_k$ ：
$\mathbf{A}_{k}=\sum_{i=1}^{k} \sigma_{i} \mathbf{u}_{i} \mathbf{v}_{i}^{T}, \quad k<r$

上面的近似过程中仅使用了前 $k$ 个奇异值和奇异向量， $\mathbf{A}-\mathbf{A_k}$ 由剩下的 $r - k$ 个奇异值和奇异向量构成，那么可得：
$\| \mathbf{A}-\mathbf{A_k} \|_2 = \sigma_{k+1}$

5. 代数秩（algebraic rank）与数值秩（numerical rank）

5.1 代数秩

代数秩（algebraic rank）是指通过行列式变换得到的秩，
$\mathbf{A}=\left(\begin{array}{lll} 1 & 2 & 3 \\ 4 & 5 & 6 \\ 7 & 8 & 9 \end{array}\right)$

对 $A$ 加上随机噪声得到 $A^*$ :
$\mathbf{A}^{*}=\left(\begin{array}{lll} 1.0003 & 1.9983 & 3.0003 \\ 3.9992 & 4.9999 & 6.0003 \\ 7.0014 & 7.9998 & 8.9991 \end{array}\right)$

$A^*$ 在代数上满秩（通过行列式变换得到），实际上却是欠定的，这种现象在真实世界中很常见

5.2 数值秩

根据 $p = 2$ 诱导矩阵范数定义numerical rank 为 $r_{\epsilon}$ ， $\epsilon$ 为近似阈值
$\operatorname{rank}[\mathbf{A}, \epsilon]=\min _{\|\mathbf{A}-\mathbf{B}\|_{2} \leq \epsilon} \operatorname{rank}[\mathbf{B}]$