第二章《补基础:不怕学不懂线性代数》笔记

Mamong

已于 2023-11-08 22:42:32 修改

阅读量973

点赞数 2

分类专栏：机器学习文章标签：笔记

于 2023-11-08 15:39:39 首次发布

本文链接：https://blog.csdn.net/mamong/article/details/134263797

版权

机器学习专栏收录该内容

13 篇文章 4 订阅

订阅专栏

2.1 直观理解向量

2.1.1 理解向量加法与数乘

维度相同的向量之间才可以进行加法运算，向量进行加法运算时只要将相同位置上的元素相加即可，结果向量的维度保持不变。

向量进行数乘运算时将标量与向量的每个元素分别相乘即可得到结果向量。

2.1.2 理解向量乘法的本质

1.如何理解向量内积

(1)向量内积的代数定义。

两个向量内积的运算规则是，参与向量内积的两个向量必须维度相等，向量内积运算时将两个向量对应位置上的元素分别相乘之后求和即可得到向量内积的结果。向量内积的结果是一个标量。

(2)向量内积的几何定义。

向量内积的几何定义用来表征向量 a 在向量 b 方向上的投影长度乘以向量 b 的模长，即 a • b = |a| |b|cosθ。

2.如何理解向量外积

向量外积又叫向量积、叉积，也是线性代数中一种常见的向量运算。

(1)二维空间中向量外积。

从代数角度考虑，二维空间中向量 a 和向量 b 的外积运算法则为这种情况下，向量外积的结果是一个标量。

从几何角度考虑，二维空间中向量 a 和向量 b 外积的结果可以表达为 a × b =|a| |b|sinθ。它表示向量 a 和向量 b 张成的平行四边形的“面积”。如果向量 a 和向量 b 的夹角大于 180 度，那么向量外积的结果为负数。

(2)三维空间中向量外积。

从代数角度考虑，三维空间中向量 a 和向量 b 的外积运算法则为这种情况下，向量外积的结果是一个向量。

从几何角度考虑，三维空间中向量 a 和向量 b 外积的结果是向量 a 和向量 b 张成平面的法向量。三维空间中，向量外积的结果是一个向量，而不是一个标量，并且两个向量的外积与这两个向量组成的坐标平面垂直。

2.1.3 理解基向量与线性无关

1.如何理解基向量

2.如何理解线性无关

n 维空间中的基向量必须满足 n 维空间具有 n 个基向量，且这些基向量之间必须线性无关。

由一组向量的线性组合得到零向量只能通过所有系数为 0 这种方式实现，那么这组向量就是线性无关的，反之则是线性相关的。

2.2 直观理解矩阵

2.2.1 理解矩阵运算规则

1.如何理解矩阵

(1)方阵。方阵是行数和列数相等的矩阵，方阵的行数或列数称为阶数。

(2)对角矩阵。对角矩阵是非主对角线元素全部为 0 的方阵。

(3)单位矩阵。单位矩阵是主对角线元素为 1 的对角矩阵。

(4)对称矩阵。对称矩阵是原始矩阵和它的转置矩阵相等的矩阵。

2.理解矩阵加法与数乘

两个 m × n 矩阵 A 和 B 的和可以标记为 A+B，两个矩阵相加的结果也是一个 m × n 矩阵，且结果矩阵的各元素为其矩阵 A 和 B 对应元素相加后的值。

矩阵数乘是一类特殊的矩阵加法，它的结果就是将参与运算的标量数字分别与矩阵的各元素相乘，得到的结果作为新矩阵的各元素。

3.理解矩阵乘法

矩阵乘法也只适用于具备某些条件的矩阵之间，两个矩阵相乘仅当第一个矩阵 A 的列数和另一个矩阵B的行数相等时才能定义。

(1)左边矩阵的列数必须和右边矩阵的行数相等才可以运算。

(2)左边矩阵的行数和右边矩阵的列数决定了结果矩阵的行列数值。

(3)结果矩阵中每个元素的数值等于左边矩阵对应行元素与右边矩阵对应列元素分别相乘再求和的结果。

2.2.2 理解矩阵向量乘法的本质

矩阵乘以向量常写作 Ax 形式，其中左边是矩阵 A，右边是列向量 x。矩阵向量乘法可以看作矩阵乘以矩阵的一种特例，特殊之处在于列向量可以看作列数为 1 的特殊矩阵。

从运动的视角来看，矩阵向量乘法可以理解为对线性空间中运动(线性变换)的一种描述。

1.什么是线性变换

变换本质上就是函数，函数的特点是接收输入内容并输出对应的结果，线性变换本质上也是一种函数。线性变换这种函数的特别之处在于:接收的是向量，输出的也是向量。

把空间想象成沿着各个坐标轴刻度画出网格线的空间，如果变换前后原点固定且网格线保持平行和等距分布，那么这种变换就是线性变换。

2.矩阵向量乘法描述了线性变换

从数值表示来看，矩阵 A 与列向量 x 的乘积 Ax 就等于将原始列向量 x 的默认基向量分别对应地变换为矩阵 A 的各列，由矩阵 A 的各列作为目标向量的新基向量。

例如二维空间里面的任何一个向量都可以看作。而根据矩阵向量乘法的规则，两者进行对比就能得出上述结论。

3.矩阵向量乘法实现空间映射

一个原始空间经过矩阵 A 的线性变换作用后得到的对应空间就是矩阵 A 各列线性组合的集合，这个集合被称为矩阵 A 的列空间 C(A)。很显然，矩阵 A 的列空间 C(A) 就是列向量所能张成的空间。若列空间 C(A) 的维度为2 ，也称为列空间C(A) 的秩为 2。

上述矩阵 A 与列向量 x 相乘，有以下性质。

(1)经过Ax乘法作用，x的n个n维基向量转换成了n个m维基向量。

(2)m < n，也就是矩阵 A 的行数小于列数时，矩阵 A 呈现为“矮胖”形态，此时经过矩阵 A 线性变换后的 n 个 m 维基向量能够张成的空间的最大维度就是 m。这样一来，位于 n 维空间中的列向量 x 经过矩阵 A 的乘法作用后就转换到了一个更低维度(小于或等于 m 维)的新空间中了。也就是说，“矮胖”的矩阵 A 具有压缩原始空间的作用。

(3)m > n，也就是矩阵 A 的行数大于列数时，矩阵 A 呈现为“瘦高”形态，此时经过矩阵 A 线性变换后的 n 个 m 维基向量能够张成的空间的最大维度就是 n(注意不是 m)。这样一来，位于 n 维空间中的列向量 x 经过矩阵 A 的乘法作用后就转换到了一个 n 维（A的列向量线性无关）或者低于 n 维（A的列向量线性相关）的新空间中。也就是说，“瘦高”的矩阵 A 也可能具有压缩原始空间的作用。

(4)m = n，也就是矩阵 A 的行数等于列数时，矩阵 A 为方阵，呈现为“正方形”形态，此时经过矩阵 A 线性变换后的 n 个 m 维基向量能够张成的空间的最大维度就是 m(也等于 n)。

综上所述，矩阵 A 中各列的线性相关情况是决定矩阵 A 是否具有空间压缩作用的关键因素。矩阵 A 各列张成的空间的维度称为该矩阵 A 的秩，它等于矩阵 A 线性无关列的个数。

2.2.3 深刻理解矩阵乘法的本质

对矩阵乘法本质的理解:矩阵本质上是空间中的某种线性变换，所以矩阵与矩阵相乘可以看作线性变换的复合作用，最后可以用一个新矩阵来表示这种复合线性变换的结果。

2.3 理解线性方程组求解的本质

线性方程组可以转化为我们熟悉的矩阵向量乘法形式 Ax = b。

2.3.1 直观理解方程组的解

从空间视角来分析可以帮助我们深刻理解线性方程组 Ax = b 的解的存在性问题。

(1)原始空间。对于矩阵向量乘法 Ax = b，此处原始空间指代的是原始列向量 x 所在的空间。由于原始列向量 x 是一个 n 维列向量，因此原始空间的维度为 n。

(2)列空间。矩阵A是m行n列的矩阵，包含n个m维的列向量。这n个m维列向量的线性组合构成的空间就是矩阵 A 的列空间 C(A)，这 n 个 m 维列向量中线性无关列向量的个数 r 就是列空间 C(A) 的维度，也称为列矩阵 A 的秩。不难知道，r 与 m、n 之间存在这样的关系:r ≤ m 且 r ≤ n。

(3)待解空间。向量 b 是一个 m 维的列向量。求解原始未知向量 x 的时候需要比较向量 b 所在空间与矩阵 A 的列空间 C(A) 之间的关系，因此可以暂时称向量 b 所在空间为待解空间。待解空间的维度就是列向量 b 的维度 m。

对于线性方程组 Ax = b，当且仅当向量 b 在矩阵 A 的列空间中时方程组才有解。

1.一定存在解的情况

线性方程组一定存在解的含义是指，向量 b 取任意值都能够至少找到一个未知向量 x 使得 Ax = b 成立。我们知道对于线性方程组 Ax = b，当且仅当向量 b 在矩阵 A 的列空间 C(A) 中时方程组才有解。向量 b 取任意值 Ax = b 都成立，也就是说 m 维待解空间中的任意向量都在r 维的列空间 C(A) 中，结合 r ≤ m 的前提条件就知道:只有 r= m 时，线性方程组才一定有解。

2.一定不存在解的情况

线性方程组一定不存在解的含义是指，假设向量 b 可以取任意值，这种情况下无法找到未知向量 x 使得 Ax = b 成立。很明显，这种情况不成立。一个简单的例子是假设向量 b 为零向量，那么必然可以找到零向量的 x 使得 Ax = b 成立。

3.一定存在唯一解的情况

当列空间 C(A) 的维度 r 等于待解空间的维度 m 时，方程组 Ax = b 一定有解，但此时可能存在唯一解，也可能存在无穷多个解。方程组 Ax = b 一定有唯一解的情况要求原始空间 Rn 在矩阵 A 的线性变换作用下不发生空间压缩的效应，即列空间 C(A) 也是一个 Rn 空间，r=n。

综上所述，列空间 C(A) 的维度 r 等于待解空间的维度 m，保证了 Ax = b 一定有解;进一步严格化约束条件，使得原始空间的维度 n 等于列空间 C(A) 的维度 r，可进一步保证一定有唯一解。因此，我们可以说当 r=m=n 时，方程组 Ax = b 一定有唯一解。

4.一定存在无穷多个解的情况

列空间 C(A) 的维度 r 等于待解空间的维度 m，保证了 Ax = b 一定有解;如果原始空间的维度 n 大于列空间 C(A) 的维度 r，说明原始空间经过矩阵 A 的线性变换作用后空间维度发生了压缩，那么一条线或者一个面上的无穷多个向量就会被压缩到低维空间中的同一个位置上，因此会有无穷多个解。总的来说，当 r=m < n 时，方程组 Ax = b 一定有无穷多个解。

5.总结:如何判断方程组解的情况

将线性方程组 Ax = b 解情况的判断方法总结为两大步骤。

(1)判断是否有解。判断是否有解的核心原则是，向量 b 是否在矩阵 A 的列空间 C(A) 上。如果向量 b 存在于列空间 C(A) 上则有解，否则无解。需要说明的是，当 r = m 时，方程组一定有解;而当 r<m 时，方程组可能有解也可能无解。

(2)判断是否有唯一解。在判断了方程组 Ax=b 有解的情况下，进一步判断方程组解的唯一性。判断是否有唯一解的核心原则是，原始空间是否在矩阵 A 的线性变换作用下发生压缩，即判断原始空间的维度 n 是否等于列空间 C(A) 的维度 r。如果原始空间的维度 n 等于列空间 C(A) 的维度 r，则方程组有唯一解;如果原始空间的维度 n 大于列空间 C(A) 的维度 r，则方程组有无穷多个解。

2.3.2 如何寻找解的表达式

(1)首先找到解空间中的任意点，即任意一个满足方程组 Ax = b 的解，称其为特殊解，即。

(2)寻找矩阵 A 零空间的所有解的表达式，将特殊解与矩阵 A 零空间的所有解相加就是 Ax=b 的解空间。

对一个m×n矩阵A而言，所有满足等式Ax=0的向量x的集合就是矩阵A的零空间 N(A)。零空间 N(A) 中的任意一个点 xs 都满足，因此。从空间角度来描述就是，矩阵 A 的零空间 N(A) 中的任一向量沿着特殊解向量 xp 移动得到的所有最终向量构成了Ax=b的解空间。

2.3.3 深刻理解逆矩阵的本质

矩阵向量乘法表明，通过一个矩阵 A 可以将向量 x 线性变换成另一个向量 b，这是一个正向的线性变换过程。如果已知向量 b，是否可以通过矩阵 A 所对应的线性变换的逆操作反推原始向量 x 呢?因此，当 r = m = n 时，求方程组 Ax = b 的解实际上就是在已知向量 b 的情况下，寻找矩阵 A 所表示的线性变换的逆操作。

1.什么是逆矩阵

假设有矩阵 A(m × n)与矩阵 B(n × m)，如果 AB = BA=I，那么我们就说 A 为可逆矩阵， B 为 A 的逆矩阵，记为。实际上满足上述定义要求的矩阵 A 和 B 一定是方阵，也就是 m = n。这就是逆矩阵的定义。可逆矩阵有着广泛的用处，一个典型的用处就是线性方程组的求解。

2.只有满秩方阵才有逆矩阵

(1)从方阵 A 的秩角度思考。方阵 A 存在逆矩阵的关键在于不发生空间压缩，也就是要求 r = n = m，此时方阵A 也称为满秩方阵。

（2）从行列式角度来思考，矩阵可逆的前提是矩阵的行列式不为 0。

2.3.4 直观理解行列式的本质

1.直观理解行列式是什么

从几何视角来看，行列式可以看成带有正负方向的“面积”或“体积”的概念在欧几里得空间中的推广，或者说在 n 维欧几里得空间中行列式描述的是一个线性变换对“体积”所造成的影响。

行列式的本质就是线性变换所带来的变化率。

2.通俗讲解行列式的性质

(1)行列式一条重要的性质，即 detAB=detAdetB。

(2)“矩阵 A 可逆”等价于“detA ≠ 0”。

(3)对角矩阵的行列式 detdiag(a1,a2,...,an)=a1,a2,...,an。

2.4 彻底理解最小二乘法的本质

2.4.1 如何求解无解的方程组

对于无解的方程组，我们可以求其近似解。

虽然线性方程组 Ax=b 不存在精确解，但我们可以考虑求解距离目标最近的近似解。一个合理的方法就是从向量 b 向二维空间即列空间 C(A) 上引垂线，得到向量 b 在二维空间即列空间 C(A) 上的投影向量 p，由投影向量 p 和向量 b 就可以得到误差向量 e = b - p，且容易知道误差向量 e 垂直于二维空间即列空间 C(A) 上的任一向量。上述过程中将向量 b 线性变换到其投影向量 p 的操作对应着一个矩阵，这个矩阵可以称为投影矩阵 P，容易知道有 p = Pb。

求解线性方程组 Ax = b 合理的近似解，就是求解投影向量 p 代替向量b时方程组对应的。

投影向量 p 具有哪些特点呢?

(1)投影向量 p 必须在二维空间即列空间 C(A) 上，也就是，即

(2)误差向量 e = b - p 垂直于二维空间即列空间 C(A) 上的任一向量，误差向量 e 垂直于二

维空间的两个基向量——向量a1 和向量a2，容易知道有a1•e=0和a2•e=0。

可以采取如下步骤求线性方程组的近似解：

(1)汇总投影向量 p 蕴含的关键信息。将等式关系 e = b - p 和代入方程组可得到

(2)向量内积可以转化为矩阵乘法形式。对于 Rm 空间中的两个 m 维向量 a 和 b :。误差向量 e 垂直于基向量 a1和a2，有以下等式：

将该方程组写成矩阵向量乘积形式，容易有。令 A = [a1 a2]，于是就可以表示为。就可以写作

(3)满秩方阵求逆化简。

是满秩方阵，根据满秩方阵一定可逆的结论，可以转化为。

(4)求解投影向量 p 和投影矩阵 P。

将代入投影向量表达式，就可以得到。同时，将代入投影矩阵表达式，就可以得到。

(5)公式汇总。

汇总上述解向量、投影向量p和投影矩阵P的表达式，可以知道如下内容。

矩阵 A 并不是一个随意的方程组的系数矩阵，而是列空间 C(A) 中所有基向量组成的矩阵。

2.4.2 论证n维子空间上的情况

2.4.3 搞懂施密特正交化是什么

对线性方程组无解的情况人们已经推导出近似解公式以供使用。但这个公式过于庞杂，计算起来非常不方便。

我们知道假设 m 维空间 Rm 中有一个经过原点的 n 维子空间，从这个 n 维子空间中任意选取 n 个 m 维线性无关向量 a1,a2,a3,...,an 作为矩阵的列就得到矩阵 A=[a1a2a3...an]。这里的 n 个线性无关向量 a1,a2,a3,...,an 是随意挑选的，它有无数种组合情况。

如果这里的 n 个线性无关向量 a1,a2,a3,...,an 不是随意挑选的，而是选择一些性质良好的特殊线性无关向量 q1,q2,q3,...,qn，那么上述近似解公式很可能就可以简化。

实际上如果 n 个特殊线性无关向量 q1,q2,q3,...,qn 是标准正交向量的话，那么上述公式就可以大大简化。

1.标准正交向量的性质

(1)“标准”是指 n 个线性无关向量 q1,q2,q3,...,qn 的模长都为 1，也就是向量与自身的内积为 1。

(2)“正交”是指 n 个线性无关向量 q1,q2,q3,...,qn 之间彼此正交，也就是向量之间的内积为 0。

一般来说，由一组标准正交向量组成各列的矩阵用专门的字母 Q 来表示，则近似解公式可以简化如下：

2.施密特正交化方法

2维空间推导过程：

n 维空间 Rn 的n个线性无关向量的正交化公式：

2.4.4 理解最小二乘法的本质

最小二乘法经常用来处理一条直线近似拟合一群数据点的情况。传统最小二乘法中“二乘”是平方的意思，“最小二乘”就是指平方和最小，具体来说就是各个测量值和真实值之间的误差的平方和最小化，即各个点横坐标对应的原始点纵坐标与直线上拟合点纵坐标误差的平方和最小化，写成表达式就是（可以看做是向量模长）

而从线性方程组近似解的角度来看，寻找线性方程组近似解的过程就是在子空间中为原始向量 b 寻找一个距离最近的投影向量 p，使得误差向量 e = b - p 的模长最小的过程。可见上述两种方法本质上是一回事。

2.5 直观理解相似矩阵对角化

2.5.1 相似矩阵是什么

1.相似矩阵的定义

设 A、B 都是 n 阶方阵，若存在可逆矩阵 P，使，则称矩阵 A、B 是相似矩阵 , 记为A~B。

如果矩阵 A 和 B 是同一个线性变换的两个不同的描述，则一定能找到一个可逆矩阵 P，使得矩阵 A 和 B 之间满足这样的关系:。可逆矩阵 P 描述的就是矩阵 A 所基于的基向量与矩阵 B 所基于的基向量之间的一个变换关系。

2.直观理解相似矩阵的本质

3.理解相似矩阵有什么用

对角矩阵是一类计算性能良好的矩阵，利用相似矩阵之间的等式关系，则可以把一些矩阵转化为计算性能良好的对角矩阵。

对角矩阵具有良好的计算特性，主要体现为以下几点。

(1) 简化矩阵向量乘积。

(2)简化矩阵连乘计算。

4.可逆矩阵 P 需要满足什么条件

假设对角矩阵是矩阵A的相似矩阵，则有。两边左乘一个矩阵 P，公式变形为。由于可逆矩阵 P 是一个 n 阶方阵，可以写作 P =[p1p2p3...pn]，于是有:。上面等式成立的条件是 n 阶方阵的列向量分别相等，即

满足这种条件的可逆矩阵 P 的各列就是矩阵 A 的特征向量。

2.5.2 如何理解特征值与特征向量

1.特征值与特征向量是什么

矩阵向量乘积 Av 在其维度空间内对向量 v 进行线性变换时，有些向量 v 只会发生数值大小变化(伸缩)而不会发生方向偏移，这些只发生数值大小变化的向量(如 x2)就是该矩阵(如矩阵 A)的特征向量，对应向量数值大小变化的倍数就是特征值。

一般来说，对矩阵 A 而言有些非零向量 v 比较特殊，它们有这样的结果:Av = λv，其中 λ 是一个标量。这样就把非零向量 v 叫作矩阵 A 的特征向量，λ 叫作特征向量 v 所对应的特征值。

2.求解特征值与特征向量

通过变形，等式Av=λv变为(A-λI)v=0。(A-λI)v = 0 什么时候成立呢?显然，向量 v 是零向量的时候，上式永远成立。不过，这样并没有什么意义。正因为如此，我们定义特征向量的时候才会加上“非零向量”这个限定语。于是，(A- λI)v = 0 表示的含义是，矩阵 A-λI 乘以非零向量 v 得到零向量。根据前面章节对行列式的本质的理解，那么线性变换之后的“单位体积”就是 0，也就是 det(A-λI)= 0。求解该行列式等式，就得到某个矩阵 A 所对应的特征向量与特征值了。

3.不是所有矩阵都有特征向量

4.什么样的矩阵才有特征向量

(1)矩阵必须是方阵。

(2)det(A-λI) = 0 有解。

5.直观理解特征基的性质

对角矩阵就是这样特别的一类矩阵，线性空间中的基向量恰好就是对角矩阵的特征向量。

既然对角矩阵有这样良好的性质，那么其他非对角矩阵能否通过某个方式转化为对角矩阵呢?某些情况下是可能的，这就是相似矩阵的对角化。

2.5.3 直观理解相似矩阵的对角化

相似矩阵的对角化是指，矩阵 A 的特征向量为 v 且特征值为 λ，则有 Av = λv。如果特征向量之间线性无关且能够张成整个线性空间，那么矩阵 A 可以被对角化表示为。其中 V=[v1v2v3...vn]，Λ=diag(λ1,λ2,λ3,...,λn)V 是矩阵 A 的特征向量作为列向量构成的矩阵，Λ 是对角矩阵且主对角线元素为矩阵 A 的特征值。

(1)形式化证明。

矩阵向量乘积 AV=A[v1v2v3...vn]，即 AV=[Av1Av2Av3...Avn]。由于矩阵 A 的特征向量为 v 且特征值为 λ，则有 Av = λv，化简即可得 AV=[λ1v1λ2v2λ3v3...λnvn]。而VΛ=[λ1v1λ2v2λ3v3...λnvn]。于是可知 AV = VΛ，等式两边同时左乘一个，则有。由此即可证明。