【UpToLec5】【Linear Algebra】线性代数基础回顾

关小A

已于 2022-11-18 19:30:56 修改

阅读量204

点赞数

分类专栏： QuantBasics 文章标签：线性代数算法

于 2022-05-19 15:56:52 首次发布

本文链接：https://blog.csdn.net/AdamNi_NintyNine/article/details/124859279

版权

QuantBasics 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

本笔记为Gilbert Strang Introduction to Linear Algebra (Fifth edition)要点整理，力求用符合直觉的方式对线代体系中精彩的推理进行复现。笔记的目的是复习，因此求精不求全，适合对线性代数已有经验的读者。

矩阵基础

行图像和列图像

$A x = b$ 的解集可以看做 $A$ 的行和 $b$ 的行确定的Hyperplane的交集，这是行图像。也可以看做 $A$ 的列的线性组合的系数，这是列图像。

行图像里 $A$ 的行是每个hyperplane的normal vector。想象 $a^Tx = 0$ 。解集过原点，空间里的每个 $x$ 都和 $a$ 垂直。 $a^Tx = b$ 不过是前者平移后的图像，所以normal vector不变。之所以 $x$ 不再和 $a$ 直接垂直，是因为“和平面垂直”的考察对象不是 $x$ ，而是平面上任意两个 $x_1, x_2$ 的连线（也就是 $a^T(x_1 - x_2) = 0$ ）。这在 $x$ 是一维的时候就是个乘积拆成乘数的问题，但在高维度里需要把标量拆成两个向量的内积，相对没那么明显了。

行图像里解集是个点，列图像里解集是一套系数，几何上暂时看不出什么联系。

矩阵乘法：B提供行，A提供行系数；A提供列，B提供列系数

维度对齐，想怎么乘怎么乘。但个人认为以下两个式子最本质：

$(AB)_{i, . } = \Sigma_{i = 1}^{i = q} a_{i, k}r_k$

$(AB)_{.,j } = \Sigma_{k = 1}^{k = q} c_kb_{k, j}$

用人话说： $A B$ 的第 $i$ 行看啥？看A的第 $i$ 行给 $B$ 的行提供了怎样的线性组合。 $A B$ 第 $j$ 列看啥？看 $B$ 的第 $j$ 列给 $A$ 的列提供了怎样的线性组合系数。行看行，列看列这在理解Elementary matrix的作用时十分方便。

LU decomposition来自于组成Row Reduction行变换的初等矩阵

初等矩阵来自于高斯消元。因为要对 $A$ 做行变换，初等矩阵必须乘在 $A$ 的左边( $E A$ 里面 $E$ 贡献列， $A$ 贡献行)。

从目的上来说 $E_{ij}$ 是消去的作用是消去 $A$ 在 $i, j$ 位置上的元。 $E_{ij}A$ 这个乘积的第 $i$ 行是由 $A$ 的第 $j$ 行乘上某个倍数，再加到 $A$ 的第 $i$ 行构成的；其他行不变。所以 $E_{i,j}$ 的结构必然是Identity在 $i, j$ 位置上改个数，倍数就记录这个位置里面。

记 $P$ 为permutation matrix。为什么 $P A = L U$ ? 拿三阶距离。我们知道高斯消元能得到 $E_{32}E_{31}E_{21}PA = U$ , 所以 $PA = E_{21}^{-1}E_{31}^{-1}E_{32}^{-1}U$ 。所有的初等矩阵都是从上往下减行，逆就是从上往下加行，再怎么加都只能在下半部分有值，所以是个L.

$P A = L U$ 的本质是高斯消元能消到上三角形矩阵。 注意，只能有上三角形是有保证的，不一定是对角。比如
$=\begin{bmatrix} 1 & 0 & 0 & 0 \\ 0 & 1 & 0 & 0 \\ 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 0 \end{bmatrix}$
上三角形，但没法继续化成对角了。（要不然Diagonalizability这词也不会轮到Eigenvectors）

干净的L: L包含且仅包含行操作的系数

$P A = L U$ 中， $L$ 不仅是个下三角矩阵，还能从 $L$ 中直接读取所有在 $P A$ 上行操作的信息。具体而言， $l_{ij}$ 记录了对第 $i$ 行的行操作力，要将几倍的第 $j$ 行从第 $i$ 行减去。

例如：对于

$B=\begin{bmatrix} 1 & 1 & 0 & 0 \\ 1 & 2 & 1 & 0 \\ 0 & 1 & 2 & 1 \\ 0 & 0 & 1 & 2 \end{bmatrix} =\begin{bmatrix} 1 & 0 & 0 & 0 \\ 1 & 1 & 0 & 0 \\ 0 & 1 & 1 & 0 \\ 0 & 0 & 1 & 1 \end{bmatrix} \times\begin{bmatrix} 1 & 1 & 0 & 0 \\ 0 & 1 & 1 & 0 \\ 0 & 0 & 1 & 1 \\ 0 & 0 & 0 & 1 \end{bmatrix}$

我们可以直接读出，为了对第二行进行行操作，我们需要把1倍的第一行从第二行减去。为了对第三行进行行操作，需要把1倍的第二行从第三行减去。为了对第四行进行行操作，需要把1倍的第三行从第四行减去。 $L$ 这个矩阵 包含且仅包含 了行操作的系数信息，显得十分干净。

这和直接把基础矩阵相乘的得到的结果形成鲜明对比。 $L^{-1} = \begin{bmatrix} 1 & 0 & 0 & 0 \\ -1 & 1 & 0 & 0 \\ 1 & -1 & 1 & 0 \\ -1 & 1 & -1 & 1 \end{bmatrix}$

$L^{-1} A = U$ 告诉我们，为了对第四行进行行操作，需要把-1倍的第一行，1倍的第二行，-1倍的第三行加到1倍的第四行上。这当然是对的，但十分的反直觉！因为我们在做行操作时只考虑怎么用 整理好的第三行 消去第四行的元，而不会把整理第三行的过程再重复一遍。所以说 $L$ 更干净。

为什么 $L$ 能做到包含且仅包含行操作的系数？因为构成 $L$ 的变换都是“从后往前”。上面的例子里，要把 $B$ 行变换，需要从第二行减去第一行，然后第三行减去整理后的第二行，再从第四行减去整理后的第三行。对应的把 $L$ 拆成基础矩阵，可以得到
$L^{-1} = \begin{bmatrix} 1 & 0 & 0 & 0 \\ 0 & 1 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 &0 & -1 & 1 \end{bmatrix} \times \begin{bmatrix} 1 & 0 & 0 & 0 \\ 0 & 1 & 0 & 0 \\ 0 & -1 & 1 & 0 \\ 0 &0 & 0 & 1 \end{bmatrix} \times \begin{bmatrix} 1 & 0 & 0 & 0 \\ -1 & 1 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 &0 & 0 & 1 \end{bmatrix}$ ，于是

$\begin{bmatrix} 1 & 0 & 0 & 0 \\ 1 & 1 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 &0 & 0 & 1 \end{bmatrix} \times \begin{bmatrix} 1 & 0 & 0 & 0 \\ 0 & 1 & 0 & 0 \\ 0 & 1 & 1 & 0 \\ 0 &0 & 0 & 1 \end{bmatrix} \times \begin{bmatrix} 1 & 0 & 0 & 0 \\ 0 & 1 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 &0 & 1 & 1 \end{bmatrix}$
每一个基础矩阵涉及的变换都是“这一行等于未经处理的前几行乘上某个倍数加到这一行”，即“已经被操作过得行不会再用于未来的操作”。这给人的启示是：有些从前往后做会很messy的操作，如果调转顺序，可能会很干净。

对称矩阵 $S$ 的对称性在 $LDL^{-1}$ 中得以保留

把 $U$ 的行首元都变成1，把系数提取到对角矩阵里，可以让 $P A = L U$ 变成 $P A = L D U$ 。

如果 $S$ 是对称的，那 $S = LDU = U^TDL^T$ ，容易猜想 $L^T = U$ ，即 $S$ 的对称性在 $L D U$ 分解中会得到保留。

Permuatation Matrix: $P^{-1} = P^T$

每行每列都只有一个1的叫Permutation Matrix，排序矩阵。排序矩阵的逆就是排序矩阵的转置，这个试两个就知道了。证明比较机械。

线性空间

一个矩阵的四个空间，各自的Basis和维度

记 $A$ 为 $m\times n$ 行，rank为 $r$ 。RREF后的结果为 $R$ 。

1. Row Space 行空间的基底就是 $R$ 里有1开头的行

行空间的Basis不会随着RREF改变，其基底可以直接读取。Row rank就是维度。

2. Null Space 的基底是 $B a s i s M a t r i x$ 的列，可以由Block Multiplicaiton猜出构造

Null Space的Basis可以从以下矩阵的列中直接读取 $\begin{bmatrix} -F_{r\times (n-r) } \\ I_{(n - r) \times (n - r)} \end{bmatrix}$

构造思路如下：

$R$ 的形式一定为( $0$ 矩阵和 $F$ 矩阵均不一定存在)：
$\begin{bmatrix} I & F \\ 0 & 0 \end{bmatrix}$

其中 $F$ 有 $n - r)^{+}$ 列（如果 $\geq n$ 那 $F$ 就不存在），于是有 $n - r)^{+}$ 个自由元，即null space有这么多维度。如果把所有null space的basis做成列，排列成矩阵（称作 $B a s i s M a t r i x$ ），那一定有 $\times BasisMatrix = 0_{n \times (n-r)}$

尝试构造 $B a s i s M a t r i x$ 即可。构造时注意用Block Multiplication匹配维度，就可以把成分猜出来。

验证：

矩阵乘法可以验证 $\times BasisMatrix = ZeroMatrix$ ，即列在Null space中.
下方的 $I_{(n - r) \times (n - r)}$ 确保了列一定是线性独立的。

所以Null Space的基底就是 $B a s i s M a t r i x$ 的列，维度为 $m a x (n - r, 0)$ 。

3. Column Space 的基底是 $R$ 中的pivot columns在 $A$ 中对应的列

这可能是线性代数里最能把行空间和列空间联系起来的定理。 $A$ 列空间的基底怎么找？把 $A$ 矩阵RREF，结果记为 $R$ ， $R$ 哪些列开头有1， $A$ 的哪些列就是 $C o l (A)$ 的基底。

证明的核心是RREF不改变Null Space，而Null Space里的向量又可以视为列线性组合的系数。具体如下：

记前 $r$ 列在RREF后有leading 1，形式如 $\begin{bmatrix} I & F \\ 0 & 0 \end{bmatrix}$ （ $0$ 和 $F$ 均可以不存在）

要证明两点：

$A$ 的前 $r$ 列线性独立。假如线性不独立，那存在 $x$ （前 $r$ 项不都为0，后 $n - r$ 项全都为0）使得 $A$ 的前 $r$ 列的线性组合为0. 因为 $A$ 的null space和 $R$ 的null space相同，而 $x$ 在 $A$ 的null space中，那 $x$ 也一定在 $R$ 的null space中。可是 $R$ 的前 $r$ 列的前 $r$ 行是单位矩阵，怎么都不可能靠着非0的线性组合系数加成0，所以 $x$ 不可能在 $R$ 的null space中。这一部分得证。
$A$ 的前 $r$ 列加上任何一列之后，都不再线性独立。假设依然线性独立。抓出 $R$ 里的对应列来考察。 $A$ 的相关列经过RREF可以得到 $R$ 的相关列，于是 $A$ 的相关列组成的矩阵和 $R$ 的对应列组成的矩阵null space相同。 $R$ 的形式告诉我们这些相关列必然不线性独立，即Null Space 维度大于等于1，于是 $A$ 的相关列也不线性独立。

因此列空间的基底是 $R$ 中pivot columns对应的 $A$ 的列。

这一小节换句话说就是 行操作可能改变列空间本身，但不会改变列空间的线性关系（即行操作以后，该共线的向量还是共线，不共线的不会跑到一条直线上） 。几何上怎么理解呢？想象一个2 x 5的矩阵，它记录了5条2维的向量。把第一行加到第二行的操作相当于是让y变成了y+x，即让每一个点的y值向上平移了其x坐标的距离。这种操作相当于把一条线加到另一条线上，当然会保留向量的线性关系！只是因为平时看到的线性操作大多是平移“固定距离”，而非平移“线性变化”的距离，所以才显得陌生。

4. Left Null Space的基底是 $E A = R$ 中 $E$ 的后 $m - r$ 行

Left null space = $\{x|A^Tx = 0\} = \{x|x^TA = 0_{1 \times n} \}$ 。

由Dimension theorem（Dimension Theorem可以由RREF不改变行、列空间维度结合 $R$ 的形式证明，不会有循环逻辑）可知Left Null的维度一定是 $m - r$ 。哪里能找到 $m - r$ 个相互独立的0解呢？注意到

$\begin{bmatrix} I & F \\ 0 & 0 \end{bmatrix}$

$E$ 的最后 $m - r$ 行显然都是0解。 $E$ 又是个基础矩阵，各行各列都线性独立。所以基底就出来了。

Dimension Theorem: Destinations under A are either 0 or range(A).

For $A_{m \times n}$ , $D i m (N u l l (A)) + D i m (R a n g e (A)) = n$

两种理解方法：

$A$ 作为一个线性映射，输入是个 $n$ 维的空间，输出是个 $r$ 维的空间，剩下的几个维度都被映射到0上了，所以Null Space维度为 $n - r$ 。这是个直觉理解，不是证明。
$A$ 作为一个矩阵，RREF后可以表示成(以下的 $0$ 和 $F$ 均可以不存在) $\begin{bmatrix} I & F \\ 0 & 0 \end{bmatrix}$
Range(A)就是 $A$ 的Column Space, 前一小节刚说过行操作不改变列空间的维度（可能改变列空间本身，但不会改变维度）。所以 $I$ 的列数就是 $C o l (A)$ 的维度。 $F$ 的列数是自由元的数量，也就是Null Space的维度。所以 $n = D i m (R a n g e (A)) + D i m (N u l l (A))$ . 这是个证明。

解的个数：用 $R$ 的形式推断更方便

解的个数不太好记。按照 $R$ 的形式推断就可以。

一个线性系统行操作完毕可能有以下形式（适当的时候换列，本质是重命名未知数）：

Underdetermined system：0 or infinitely many
即行数小于列数。可能形式为
$\begin{bmatrix} I & F \\ 0 & 0 \end{bmatrix} 、\begin{bmatrix} I & F \\ \end{bmatrix}$
这两种形式里均有 $n - r$ 个free columns，于是null space dimension均为 $n - r$ .
前一种形式里可能有0个（0的row在 $b$ 里不为0）或无穷个解。
后一种形式是full-row-rank, Columns space 包含了一个 $I_{r \times r}$ ，覆盖了 $\mathbb{R^r}$ , 所以一定有特殊解，加上Null space任何一个 $b$ 都有无穷个解。
Exactly-determined system: 0 or 1
可能的情况有
$\begin{bmatrix} I \end{bmatrix} 、\begin{bmatrix} I & F \\ 0 & 0 \end{bmatrix}$
前一种既是full-column-rank也是full-row-rank，invertible，情况简单。
后一种不是full-rank，null-space维度为 $n - r$ , 0个或无穷多个解。
Overdetermined system: 0 or 1
可能的情况有
$\begin{bmatrix} I \\ 0 \end{bmatrix}$
Full-column rank，null-space dimension为0，一个解或者没有解。

子空间正交

子空间的正交关系、Normal Equation的正交理解、正交化的妙处

行空间和Null Space正交；列空间和Left Null正交。由于这两对维度相加分别等于总空间的维度，所以行空间是Null Space的Orthogonal Complement，列空间是Left Null Space的Orthogonal Complement. 这是Dimension Theorem的另一种理解方法。

投影到向量上的投影矩阵有个好记的方法：外积/内积，例如 $b$ 在 $a$ 上的投影就是 $\frac{aa^T}{a^Ta}b$ . 矩阵类似，最常见于线性回归。

线性回归中的Normal equation除了通过最优化，也可以通过空间正交关系得到。线性回归即是把 $y$ 投影到 $A$ 的列空间上。记投影的“系数”为 $\hat{x}$ ，即投影的结果为 $A\hat{x}$ （如果 $A$ 是一列，系数就是倍数；如果 $A$ 是一个矩阵， $\hat{x}$ 就是其列的线性组合的系数）。投影的剩余 $A\hat{x}$ 一定和 $A$ 的列空间垂直，所以 $y-A\hat{x}$ 一定在 $A$ 的Left Null Space里，即 $A^T(b - A\hat{x}) = 0$ ，由此可得Normal Equation。

$A^TA$ 的形式一般来说比较复杂。但如果 $A$ 的列两两正交，那 $A^TA$ 就是个对角矩阵，结果会好处理很多。

Orthogonal Matrix和 $Q^TQ=I$ 的几何意义：不改变长度，也不改变角度

如果一个矩阵的列能构成这个空间的Orthonormal Basis，这个矩阵就叫Orthogonal Matrix（其实应该叫Orthonormal Matrix，但约定俗成）。等价的定义是 $Q^TQ=I$ . 这个式子说明列的模长是1，且任意两列都垂直，和配合维度，即能说明列是Orthonormal Basis。

$Q^TQ=I$ 还有一个向量层面的直观意义。考虑任意两个向量 $u$ , $v$ ，对他们都施加 $Q$ 变换。变换前的内积是 $u^Tv$ ，变换后的内积是 $u^TQ^TQv$ 。 $Q^TQ=I$ 的第一层几何意义是 $Q$ 不改变内积。取 $u = v$ ，可以发现 $Q$ 变换不改变模长，这是第二层意思。加在一起， $Q^TQ = I$ 意味着 $Q$ 变换既不改变模长，也不改变夹角，也就我们说的rigid motions。

什么样的操作既不改变模长也不改变夹角？

旋转。
排序。也就是换轴。
过原点的对称。包括中心对称和对称轴过原点的轴堆成。

诸如平移、其他对称其实也有相同属性，本质上和以上三类是一样的。只是矩阵的定义方式要求变换一定是线性的，但平移、其他对称不保留原点，就没法用矩阵乘法表达。

Gram-Schmit 和 A = QR的直观理解： $a_k$ 只在 ${q_1,...,q_k\}$ 上可能有非零投影

Gram-Schmit的目的是让一组向量正交化且标准化。第一个方向来自于第一个向量，其后每个方向都来自于从原向量中刨掉已搭建方向的投影。

Gram-Schmit还能很方便地推出 $A = Q R$ 分解（如果 $A$ 的列线性独立且 $A$ 满秩， $Q$ 为orthogonal；不然 $Q$ 会有0列，但其他依然orthonogal, $R$ 为上三角），且推导不依赖于算法运行的具体结果。只需要知道两点：把 $a_1, a_2, ..., a_n$ 记作原始向量， $q_1, q_2,...,q_n$ 记作算法运行后的orthonormal向量（严格地讲可能包含0），那么

不管 ${a_k\}$ 长什么样，投影总是行的，所以 ${q_k\}$ 一定出得来。最多里面有些0.
在构造 $q_1, q_2$ 的时候只用到了 $a_1, a_2$ ，那反推 $a_1, a_2$ ，应该也只需要用到 $q_1, q_2$ .这一点已经保证了 $R$ 是个上三角矩阵，因为它记录了每个 $q_k$ 的系数。

至于 $R$ 里面具体是什么，直接从定义考察就行。 $q_k$ 非0的俩俩垂直且都是单位向量，且 ${q_k\}$ 的空间和 ${a_k\}$ 的空间完全一致，于是 ${q_k\}$ 相当于这个空间的一个笛卡尔坐标系。每一个原始的 $a_k$ 都相当于在各个 $q_k$ 方向上的投影之和。于是有 $a_3 = q_1q_1^Ta_3 + q_2q_2^Ta_3 + q_3q_3^Ta_3$
调整成 $q_k$ 的系数的格式，就有
$\begin{bmatrix}a_1 & a_2 & a_3 \end{bmatrix} = \begin{bmatrix}q_1 & q_2 & q_3 \end{bmatrix} \begin{bmatrix}a_1^Tq_1 & a_2^Tq_1 & a_3^Tq_1 \\ 0 & a_2^Tq_2 & a_3^Tq_2 \\ 0 & 0 & a_3^Tq_3 \end{bmatrix}$

行列式

通过性质定义行列式：起点是按行线性、换行为负和Identity

行列式有若干种定义方法。可以直接用Permutation+符号定义，这种最方便计算但也最难懂；可以定义完1x1，2x2的再用按行/列展开的递归定义；Strang给的定义是直接用行列式性质，这种方法点出了行列式最重要的性质。

起点是三条：

规定Identity的行列式为1.
规定行列式在每行的变换里线性。即比如有矩阵 $A$ 和 $A_0$ ， $A_0$ 仅在某一行有值，其他行为0。记 $A^{'}$ 为 $A$ 的对应行用 $A_0$ 替代掉，那 $A + kA_{0}| = |A| + k|A'|$ 。注意这要求 $A_{0}$ 仅在某一行有值，一般来讲这个式子不成立。
规定互换两行后，行列式变号。

由这三条能推出行列式其他性质。比如，

两行相同则行列式为0。可以由换行，变号却依旧相等得到。
某一行乘上一个系数，行列式也会乘上那个系数。由线性可得。
行操作不改变行列式的值。把用线性把行变化拆成原行列式和新加上去的行列式并拆出来系数，新加上去的里面有两行一模一样，为0.
某一行如果都为0，则行列式为0。这其实用该行展开最直接。用当前的定义可以用行操作构造出一个为0的行列式。
三角矩阵的行列式等于对角线相乘。行操作把非对角的都化成0（如果对角线上有0，由于那一行的其他非0值能被化成0，行列式也为0.）
- 这还有个小推论。单看前 $k$ 行 $k$ 列，小矩阵的行列式只取决于这个小矩阵的主元，和其他行其他列无关。直觉理解同样出自行操作。
行列式不为0是矩阵可逆的充分必要条件。可逆就是说行操作以后主元都不为0，即对角线上没有0，即行列式不为0.
$∣ A B ∣ = ∣ A ∣ ∣ B ∣$ 。这条相对复杂些。尝试证明 $\frac{|AB|}{|B|}$ 这个操作即是行列式。Identity很好证。在单行线性和换行为负可以对分子运用行列式定义。三条性质成立说明 $f$ 就是行列式，而行列式唯一（用计算定义想最简单）。
$A| = |A^T|$ 。由高斯消元可以得到 $P A = L U$ ，又由于 $P$ 是保型变换， $PP^T=I$ 。对转置取行列式可以得到这条结论。

从性质到其他定义：用单行线性推出Permutation的大公式；把大公式按行整理得到展开式

用单行线性先拆第一行，再拆第二行，一行一行拆下去就是Permutation大公式。拆到每行只有一个数时可以把数提出来，Permutation的符号就出来了。

这种拆解的精髓应该是在逆运算： 怎么把行列式加成一个？Q! 暂未领悟。

另外展开式的推导方式也只知其表。从使用角度上记熟就行。

Cramer’s Rule: $x_j = \frac{|A_{\text{jth column subbed by b}}|}{|A|}$

关小A

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【UpToLec5】【Linear Algebra】线性代数基础回顾

看最优化时发现许多围绕PSD、Eigenvectors等概念的定理不太熟悉，于是想着把线代基础重新过一遍。打算过两套材料：MIT Gilbert Strang的线代课，老经典了，很基础。可惜以前没看过，借此机会膜拜一下，再锻炼锻炼直觉Linear Algebra by Kenneth Hoffman & Ray Kunze。重点在后半部分inner product spaces, 可能要花两周的时间重新学一下。笔记只记能增进直觉的核心理解。以前实分析的老师说，他觉得反证法不算证明，因为很多
复制链接

扫一扫