SVD专题2 线性映射的奇异值分解——矩阵形式的推导

最新推荐文章于 2022-10-12 12:19:46 发布

置顶

NULL8333

最新推荐文章于 2022-10-12 12:19:46 发布

阅读量994

点赞数 1

分类专栏：数学 # Linear Algebra 文章标签：矩阵线性代数 SVD 奇异值分解数学

本文链接：https://blog.csdn.net/chenzz444/article/details/121319872

版权

本文介绍了线性映射的奇异值分解（SVD）的矩阵形式推导，从秩零定理出发，探讨了矩阵的列空间、零空间、共轭映射等相关概念。文章详细展示了如何通过正算子的谱分解找到最佳的基，最终得出线性映射的SVD表达式：A=UΣV∗，其中U和V是酉矩阵，Σ是对角矩阵，包含奇异值。SVD在理论与数值计算中有广泛应用。

摘要由CSDN通过智能技术生成

2021-11-9 分割线

麻烦各位看官大大们多多点赞哦，让更多的人看到这篇文章~

以下是原文：

SVD专题2 线性映射的奇异值分解——矩阵形式的推导

前言 Preface

本讲不能和本系列的第1讲：SVD专题1 算子的奇异值分解——矩阵形式的推导_夏小正的鲜小海的博客-CSDN博客采取同样的讲解策略，原因是线性映射不同于算子，涉及到维度的变化，倘若对线性代数的几个基本定理没有理解的话，很难看懂每一步都是想做什么。

几点说明：

第一点，为什么在第1讲的推导中用的是符号 $T$ ，这里是符号 $A$ 呢？

一方面是我在写这部分内容时参考的两大资料来源：線代啟示錄和一份 CMU 的课程讲义 Computer Science Theory for the Information Age, Spring 2012. 都是用的 $A$ ，另一方面是，符号 $T$ 其实是沿袭了 “Linear Algebra Done Right” 中将其视作算子或线性映射的习惯表达，而 SVD 在具体应用中基本都是在和矩阵打交道的，而用 $T$ 来表达矩阵的很少。这里为了与人们的习惯用法保持一致，故使用记号 $A$ 。

第二点，下面的出现的向量空间默认是复向量空间或复内积向量空间。

特别注意，本节中出现的 $A$ 有两重含义：当把 $A$ 看作代数语言，它表示一个抽象的线性映射；当使用矩阵语言，把 $A$ 视作该线性映射对应的矩阵表述，那么 $A$ 就是 $\mathbb{C}^{M\times N}$ 中的一个实实在在的矩阵。

预备知识 Prerequisite

2.1 秩-零定理 Rank-Nullity Theorem

作为后面推导的基石，一定要搞懂这个线性代数中最基本的一大定理。

考虑由 $n$ 维复向量空间 $V$ 到 $m$ 维复向量空间 $M$ 的一个线性映射 $\mapsto W$ 。我们把 $V$ 中那些被 $A$ 映射到 $W$ 中 $\mathbf{0}$ 向量的全体向量，叫做 $A$ 的零空间 $\operatorname{null}{A}$ （或称核空间 $\operatorname{ker}{A}$ ），把 $V$ 中所有向量都映射到 $W$ 中去，相应的被映射的值域，叫做 $A$ 的值空间 $\operatorname{range}{A}$ 。不难证明， $\operatorname{ker}{A}$ 是 $V$ 的一个子空间， $\operatorname{range}{A}$ 是 $W$ 的一个子空间，并且称值空间 $\operatorname{range}{A}$ 的维度为线性映射 $A$ 的秩，记作 $\operatorname{rank}{A}$ （不要忘了，子空间的维度 = 基中线性独立的向量的个数）。

秩零定理告诉我们， $V$ 的维度，一定等于 $\operatorname{ker}{A}$ 的维度与 $\operatorname{range}{A}$ 的维度之和，即：
$\operatorname{dim}{V} = \operatorname{dim}{\operatorname{ker}{A}} + \operatorname{dim}{\operatorname{range}{A}}\\$
这个定理的证明是很重要的，蕴含了一个很有用的想法，这个想法将作为后续 SVD 推导的出发点，有助于直观理解。现在给出该定理在代数视角下的证明。

如果设 $\operatorname{ker}{A}$ 的维度是 $p$ ，一组基为 $\{\mathbf{u_1}, ..., \mathbf{u_p}\}$ ，那么我们可以在这组基的基础上将其扩充成 $V$ 的一组基 $\{\mathbf{u_1}, ..., \mathbf{u_p}, \mathbf{v_1}, ..., \mathbf{v_r}\}$ ，即我们又新增了 $r$ 个线性独立的向量。那么 $V$ 的维度 $n = p + r$ 。其实不难看出，这里其实相当于构造出来了一个子空间 $\operatorname{span}\{\mathbf{v_1}, ..., \mathbf{v_r}\}$ ，这个子空间把 $\{\mathbf{v_1}, ..., \mathbf{v_r}\}$ 作为它的基。现在 $V$ 中就有两个子空间了，分别是 $\operatorname{ker}{A}$ 和 $\operatorname{span}\{\mathbf{v_1}, ..., \mathbf{v_r}\}$ 。它们刚好凑成了二元直和分解， $\operatorname{ker}{A} \oplus \operatorname{span}\{\mathbf{v_1}, ..., \mathbf{v_r}\}=V$ 。直和在这里可以简单的理解为“互不隶属”。

既然有了一组基 $\{\mathbf{u_1}, ..., \mathbf{u_p}, \mathbf{v_1}, ..., \mathbf{v_r}\}$ ，很自然的想法是 $V$ 中的每一个向量 $\mathbf{v}$ 都可以写为基的线性组合：
$\begin{aligned} A\mathbf{v}&=a_1\mathbf{u_1}+\cdots+a_p\mathbf{u_p}+ b_1\mathbf{v_1}+\cdots+b_r\mathbf{v_r} \\ &=b_1A\mathbf{v_1}+\cdots+b_rA\mathbf{v_r} \end{aligned}\\$
第二个等号成立的原因是 $A$ 把 $\mathbf{u_1}$ 到 $\mathbf{u_p}$ 都给映射为 $W$ 中的 $\mathbf{0}$ 向量了，或者说每个 $\mathbf{u_i}$ 都在 $\operatorname{ker}{A}$ 中。

上式说明 $\operatorname{range}{A}$ 其实就是 $\operatorname{span}\{b_1A\mathbf{v_1}+\cdots+b_rA\mathbf{v_r}\}$ 。如果能够证明 $\{A\mathbf{v_1}, ..., A\mathbf{v_r}\}$ 是线性独立集，那么 $\operatorname{range}{A}$ 的维度恰好就为 $r$ ，定理就得证了。下面证明 $\{A\mathbf{v_1}, ..., A\mathbf{v_r}\}$ 的确是线性独立集，即 $\{A\mathbf{v_1}, ..., A\mathbf{v_r}\}$ 是 $\operatorname{range}{A}$ 的一组基。

令： $c_1 A\mathbf{v_1}+\cdots+ c_r A\mathbf{v_r}=0$ ，有：
$\begin{aligned} & c_1 A\mathbf{v_1}+\cdots+ c_r A\mathbf{v_r}= \mathbf{0} \\ \Longleftrightarrow \ & A \left( c_1 \mathbf{v_1}+\cdots+ c_r \mathbf{v_r} \right)= \mathbf{0} \end{aligned}\\$
意味着 $c_1 \mathbf{v_1}+\cdots+ c_r \mathbf{v_r}$ 在 $\operatorname{ker}{A}$