深度学习·理论篇(2023版)·第003篇深度学习和计算机视觉中的基础数学知识02：特征向量和特征值+矩阵乘法的几何意义(2)+奇异值分解+线性可分性和维度+非线性变换

本文链接：https://blog.csdn.net/qq_39237205/article/details/127589864

本文深入探讨深度学习中的基础数学知识，包括特征向量、特征值的几何意义，正定矩阵的特殊性质，以及矩阵乘法、奇异值分解的几何解释。此外，还讨论了线性可分性在不同维度下的表现，以及非线性变换在解决线性不可分问题中的作用。内容适用于PyTorch和计算机视觉领域的深度学习实践。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

💕恭喜本博客浏览量达到两百万，CSDN内容合伙人，CSDN人工智能领域实力新星~

🧡本文章为2021版本迭代更新版本，在结合有效知识的基础上对文章进行合理的增加，使得整个文章时刻顺应时代需要

🧡本专栏将通过系统的深度学习实例，从可解释性的角度对深度学习的原理进行讲解与分析，通过将深度学习知识与Pytorch的高效结合，帮助各位新入门的读者理解深度学习各个模板之间的关系，这些均是在Pytorch上实现的，可以有效的结合当前各位研究生的研究方向，涉及人工智能的各个领域，是经过一年时间打磨的精品专栏！

💜专栏地址：https://blog.csdn.net/qq_39237205/category_12077968.html

正文开始~~~

没看上一篇的先看上一篇哦，都有联系：
上一篇地址：https://blog.csdn.net/qq_39237205/article/details/127589548

文章目录

2.1.5 特征向量和特征值

2.1.5.1 特征值和特征向量的定义与几何意义

特征值和特征向量的定义，对于一个非零向量x和一个矩阵A，如果有标量入使得:

在这里插入图片描述

则称入为A的特征值,x为对应的特征向量。从定义来看，特征向量的意思就是说对经过变换后，这个向量并没有发生方向的变化(或是完全反向，如果入为负值的话)。

我们来直观感受一下特征向量和特征值的几何含义，为方便讨论，以单位向量为例，考虑如下矩阵:

在这里插入图片描述

这个矩阵变换的特征向量分别为(-1/√2，-1/√2)和(-1/√5，-2/√5)，对应的特征值分别是2和3。

首先来看看向量(1,0)和(0,1)经过变换后的情况，如图2-10所示。

在这里插入图片描述

根据矩阵乘法几何含义的理解，(1,0)向量所示的黑色实线箭头变换后对应的则是第一列的向量(1,-2)，而(0,1)所示的浅色实线箭头变换后对应的是第二列的向量(1,4)。显然这两个向量都发生了方向的变化。

接下来看看图2-10b中,两个特征向量变换后的情况。(-1/√2，-1/√2)是黑色实线箭头，(-1/√5，-2/√25)是浅色实线箭头，变换后的两个向量和变换前的向量方向完全一致，其中黑色虚线箭头的长度是黑色实线箭头长度的2倍，浅色虚线箭头的长是浅色实线箭头长度的3倍。

这就是特征值的几何含义：变换会将对应特征向量方向上的向量进行缩放，缩放的倍数就是特征值。

上面的例子用的矩阵是一个非对称矩阵，在机器学习中比较常见的情况是对称矩阵，尤其是正定矩阵。

2.1.5.2 正定矩阵的特征向量的特别之处

正定矩阵的定义如下：对于任意非零的向量x,和一个对称矩阵A，如果有

则称矩阵A是正定矩阵。

从之前讲到的点积的几何意义，正定矩阵可以理解为一个向量经过正定矩阵变换后，和自身的点积大于0。即正定矩阵对应的变换不会把变换后的向量变到向量本身所垂直的平面的另一侧。从二维的角度来看，即变换后的向量和自身的夹角都不会大于90°。

考虑如下正定矩阵：

在这里插入图片描述

特征向量分别是(0.85,0.53)和(-0.53,0.85)，对应的特征向量为1.81和0.69，画出来如图2-11a所示，深色实线箭头为单位向量，浅色虚线箭头为变换后的向量。

在这里插入图片描述

可以看到，两个特征向量是互相垂直的。

图2-11b，想象有个单位长度的向量，把这个向量绕着原点旋转，并画出变换前和变换后的轨迹，则这个向量显然画出了一个圆，而变换后的向量画出的轨迹是一个椭圆。

图2-11c所示，而这个正定矩阵对应的特征向量，则正好分别是椭圆长短轴所指的方向，特征值则是椭圆的半长轴和半短轴的长度。

从几何上理解就是正定矩阵变换前后的空间里可以找到一组正交的向量，这组正交向量变换后仍是正交的，且方向不变，空间只是沿着这组正交向量的方向上发生了拉伸/收缩。

2.1.6 矩阵乘法的几何意义(2)

2.1.6.1 从旋转和拉伸角度理解矩阵乘法的几何意义

正定矩阵对应的变换其实就是沿着特征向量的方向进行了缩放。那么从旋转和缩放的角度如何看待正定矩阵的变换呢?

还是考虑图2-11中的例子，对于图2-11例子中的变换矩阵

在这里插入图片描述

很难直观想象出沿着特征向量方向(0.85,0.53)和(-0.53,0.85)进行缩放的几何过程。如果沿着横轴和纵轴方向进行缩放，那么形式就非常简单了，如x-y二维平面中，用一个变换对横轴缩放a倍，纵轴缩放b倍的矩阵如下:

在这里插入图片描述

该矩阵是一个对角矩阵，对应维度上的元素就是要缩放的倍数。

通过上文，我们可以了解到旋转矩阵和对应的几何理解，那么对于二维平面的情况，即转换思路：只要用一个旋转矩阵，把原来空间中对应特征向量的方向旋转到对应x轴和y轴，然后进行简单的缩放，然后再用一个矩阵变换旋转回去，等效于直接乘以一个变换矩阵。

按照这个思路来试一下。

第①步，已知两个特征向量的方向，现在要把(0.85，0.53)转回x轴的位置，只需要把当前的x轴转到(0.85，0.53)沿x轴对称的位置，所以第一个列向量就是(0.85，-0.53)。

同样的对于(-0.53，0.85)，要转回y轴，则需要把当前y轴转到(-0.53，0.85)沿y轴对称的位置，也就是(0.53，0.85)，所以变换矩阵就是

在这里插入图片描述

也就是从图2-12a到图2-12b的情况。注意其实就是特征向量作为行向量的矩阵。接下来就是简单的沿着x轴和y轴方向进行缩放，其中缩放的倍数分别是两个特征向量对应的特征值，也就是进行如下的矩阵变换。

在这里插入图片描述
这一步对应下图2-12b到图2-12c，可以看到，变换前的方格里的笑脸已经被扭曲成了斜着的四边形，接下来就是最后一步，也就是第一步的“逆旋转”，其实就是逆变换，注意到旋转矩阵都是正交矩阵，所以逆变换就是转置，也就是特征向量作为列向量的矩阵。

在这里插入图片描述

最后就得到了图2-12d,所以在这个过程中相当于把变换矩阵按照M=U∑U^T分解成了3个子变换矩阵:

在这里插入图片描述

其中第一次和最后一次的变换是单纯旋转，中间的变换是单纯地沿坐标轴缩放。

2.1.7 奇异值分解

图2-12的例子讲的是正定矩阵，那么对于一般情况下的矩阵变换呢，是否这种基于特征向量和特征值，然后用单纯旋转和缩放的组合解释的几何意义也能推广呢?答案是肯定的，而且形式上和对于正定矩阵的分解很类似，也是“翻转→缩放→翻转”，这种更一般的分解就是奇异值分解(Singular Value Decomposition，SVD) 。

定义如下：

其中∑是一个对角矩阵，就我们在机器学习领域内的问题而言，U和V为正交矩阵。

下面还是以二维的例子来演示，考虑如下的矩阵及其奇异值分解。

在这里插入图片描述

还是按照类似图2-12所示的策略，先画出(0.38,0.92)和(-0.92,0.38)两个第一次旋转后会转到横轴和纵轴的向量，还有虚线笑脸，来一起看看一步步直到最终的变换，如图2-13所示。

在这里插入图片描述

所以得知，任何一个矩阵乘法执行的线性变换都是可以分解为旋转→缩放→旋转，而且其实正定矩阵的奇异值分解就是U和V是同一个矩阵的情况，奇异值分解可以看作是特征值和特征向量的推广。

2.1.8线性可分性和维度

线性可分就是说可以用一个线性函数把两类样本分开

2.1.8.1 线性可分的定义如下

在这里插入图片描述
图2-14a中在一维直线上，将两类点分开的超平面就是一个点。图2-14b中，分开两类点的超平面是一条直线。图2-14c中则是一个平面分开了两个不同类别的点。对于这种二分类问题，在n维空间中，wx+b=0则是描述判别这两类不同模式的超平面。至于线性不可分，如图2-15a所示的是一个经典的表达异或（XOR）函数的线性不可分例子。