线性代数学习笔记10-2：特征值分解EVD/奇异值分解SVD的几何意义

Insomnia_X

已于 2024-01-05 15:40:20 修改

阅读量1.2k

点赞数 4

分类专栏：线性代数学习笔记文章标签：线性代数学习矩阵

于 2022-09-12 18:06:18 首次发布

本文链接：https://blog.csdn.net/Insomnia_X/article/details/125583629

版权

线性代数学习笔记专栏收录该内容

43 篇文章 95 订阅

订阅专栏

前置知识

矩阵对应于线性变换，并且要明确讨论所依赖的基（坐标系）：同一个变换，在不同的基下对应的矩阵不同
具体来说，矩阵中的列向量对应了基变换，而基的变换造成了原空间中所有向量的变换
$\mathbf B=\mathbf {P^{-1}AP}$ ， $\mathbf B$ 本质上是与 $\mathbf A$ 相同的变换，只不过是同一种变换在不同坐标系下的表现（理解为在另一坐标系下施加变换，然后再还原到之前的坐标系）

特征值分解EVD

特征值分解的前提：矩阵是方阵！

特征值分解EVD/相似对角化，表示为 $\mathbf{A=P^{-1} \Lambda P}$
特征向量给出了：在某个线性变换中，仅受拉伸/压缩的向量（伸缩倍数为特征值）

可见，特征值分解EVD/相似对角化的几何意义是：

对于线性变换 $\mathbf A$ ，找到了一组特殊的基，在这组基（坐标系）下，该线性变换表示为对角阵 $\mathbf\Lambda$ （相当于只是将各个基向量做伸缩）
或者说，从原坐标系变换到（以特征向量为基的）新坐标系，线性变换在这个坐标系下表示为“对角矩阵”（对角矩阵的好处：对应的线性变换只是将各个基向量做伸缩，计算方便）

特征值分解的理解

角度一：在另一坐标系下的等效线性变换，可分解为三步：基变换、在另一组基下的空间变换、反向的基变换
角度二：将一个线性变换，分解为三次连续的线性变换： $\mathbf{P}$ 、 $\mathbf{\Lambda}$ 、 $\mathbf{P^{-1}}$

奇异值分解SVD

特征值分解的前提较严格：矩阵必须为方阵，且能够相似对角化（有n个线性无关的特征向量/为实对称矩阵）
一个简单的例子是，剪切变换由于只有“一个”特征向量，不能张成这个二维平面，无法进行特征值分解
SVD则适用于一般的矩阵

$\mathbf{A=U \Sigma}\mathbf V^T$
其中， $\mathbf U$ 和 $\mathbf V$ 为正交矩阵， $\mathbf \Sigma$ 为对角矩阵（元素为非负实数）

类似特征值分解EVD，奇异值分解SVD目的是：
找一组特殊的基，在这组基（坐标系）下，线性变换能够被拆分为旋转、缩放、投影三种基本的简单变换

投影：由于不是方阵，而是m x n矩阵，一定存在高维到低维的映射
旋转：旋转对应的矩阵是正交矩阵，因此在SVD中，基变换过程要用到正交矩阵
缩放：两次基变换中间的基向量的缩放

最终，线性变换被分解为三步：简单旋转、缩放、简单旋转
在这里插入图片描述
如图，向量 $\mathbf x$ 经过线性变换 $\mathbf A$ 后得到 $\mathbf A\mathbf x=\mathbf U\mathbf \Sigma\mathbf V^T\mathbf x$ ：
① $\mathbf V^T$ 将其旋转为 $\mathbf V^T\mathbf x$ [将单位正交向量v1、v2旋转到水平和垂直方向]
② $\mathbf \Sigma$ 缩放了坐标系的基向量，将向量对应变为 $\mathbf \Sigma\mathbf V^T\mathbf x$
③ $\mathbf U$ 将其旋转为 $\mathbf U\mathbf \Sigma\mathbf V^T\mathbf x$ [将放缩后的向量旋转到最终位置]

对奇异值分解的理解

角度一：将一个线性变换，分解为三次连续的变换

$\mathbf V^H$ 、 $\mathbf \Sigma$ 、 $\mathbf U$ ，分别对应了简单旋转、缩放、简单旋转
ps. 正交矩阵的作用都是旋转矩阵

角度二：将SVD一种特殊的特征值分解

特征值分解为 $\mathbf{A=P \Lambda P^{-1}}$ ；
奇异值分解为 $\mathbf{A=U \Sigma\mathbf V^H=U \Sigma\mathbf V^{-1}}$ ；

对比可知，若将 $\mathbf U$ 拆解为 $\mathbf{U=VE}$ ，则奇异值分解可视为特征值分解： $\mathbf A=\mathbf U \mathbf \Sigma\mathbf V^T=\mathbf {V (E \Sigma)\mathbf V^T}=\mathbf {V QV^{-1}}$ 变换 $\mathbf {Q=E \Sigma}$ （包含伸缩 $\mathbf \Sigma$ 和旋转 $\mathbf E$ ），而我们把左侧的 $\mathbf{VE}$ 合并为 $\mathbf U$ ，最终就得到SVD

由上可见，奇异值分解与特征值分解，关键区别在于多了一个旋转的变换；
（另外若空间维度发生了变化，还包括投影的变换）

角度三：从映射角度理解

线性变换 $\mathbf A$ ，将向量 $\mathbf x$ 映射为向量 $\mathbf A\mathbf x$ ，即：原空间映射到像空间

奇异值分解的几何意义：在原空间与像空间中分别找到一组标准正交基，把原空间中第 $i$ 个基向量，映射为像空间的第 $i$ 个基向量的非负倍向量，或映射为零向量
上面的话，隐含了维度变换的投影；也隐含了旋转的变换（原空间与像空间中都是正交基，但是其指向如果不同，就对应于旋转）

EVD和SVD的对比

特征值和奇异值都可用于分解矩阵，但它们有如下区别：
（两者关系的基本讨论见前文，这里简要总结）
从相似对角化的角度：

特征值分解是将特征向量作为新的基向量，在新的坐标系下进行伸缩，完成同一个线性变换
奇异值分解是将标准正交基作为新的基向量，在新的坐标系下进行伸缩+旋转（可能还包含投影），完成同一个线性变换

无法进行特征值分解，正是因为线性变换包含旋转，导致不存在只被简单缩放的向量，即找不到特征向量

从适用范围上：

特征值分解只能用于方阵，对应于从空间到空间自身的映射
奇异值分解用于m x n的矩阵/或奇异矩阵（不可逆的方阵），对应从一个空间到另一个空间的映射（降维）

从几何直观上：

“作用”的概念：几何上简单理解为对向量的旋转和拉伸

特征向量是变换后仅受缩放的向量/不变作用的向量（如左图，变换后方向一定不变）
奇异向量是变换后拉伸效果最大的向量/最大作用的向量（如右图，变换后方向可能改变，但在所有向量中，受到了最大程度的拉伸）

reference:矩阵分析(二)：从特征值到奇异值、奇异值与特征值辨析
扩展：特征值分解（EVD）、相似对角化、QR分解、Schur分解、奇异值分解（SVD）详解

Insomnia_X

关注

4
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
线性代数学习笔记10-2：特征值分解EVD/奇异值分解SVD的几何意义

特征值和奇异值都可用于分解矩阵，但它们有如下区别：（两者关系的基本讨论见前文，这里简要总结）特征值分解是将特征向量作为新的基向量，在新的坐标系下进行伸缩，完成同一个线性变换奇异值分解是将标准正交基作为新的基向量，在新的坐标系下进行伸缩+旋转（可能还包含投影），完成同一个线性变换特征值分解只能用于满足条件的方阵，对应于从空间到空间自身的映射奇异值分解用于m x n的矩阵/或奇异矩阵（不满秩/不可逆的方阵），对应从一个空间到另一个空间的映射“作用”的概念：几何上简单理解为对向量的旋转和拉伸。
复制链接

扫一扫