线代笔记Part 2 (Lecture 3 & 4 & 5上半)

最新推荐文章于 2024-01-26 13:48:08 发布

LiberFurther

最新推荐文章于 2024-01-26 13:48:08 发布

阅读量129

点赞数

分类专栏：线性代数

本文链接：https://blog.csdn.net/LiberFurther/article/details/127363364

版权

线性代数专栏收录该内容

2 篇文章 0 订阅

订阅专栏

线代笔记Part 2 (Lecture 3 & 4 & 5上半)

来自MIT OpenCourseWare由Gilbert Strang主讲的Linear Algebra讲座。视频地址在此。

该笔记主要用于帮助对线代知识体系的复习。其中添加了我个人的一些感悟。

Lecture 3

这一讲详细阐述了求矩阵乘法的各种方法，以及计算逆矩阵（若存在）的方法。

设矩阵 $A$ 的形状为 $m\times n$ ，矩阵 $B$ 的形状为 $n\times p$ ，那么我们可以计算
$A B = C$
其中 $C$ 的形状为 $m\times p$ 。

计算这个矩阵 $C$ 有4种方法：

对矩阵 $C$ 中任意一个元素，记第 $i$ 行第 $j$ 列的元素为 $c_{ij}$ ，则
$c_{ij}=\sum_{k=1}^{n}a_{ik}b_{kj}$
记矩阵 $C$ 中各列向量为 $c_{\cdot j}, j\in\{1,\dots,p\}$ ，矩阵 $B$ 中的各列向量则为 $b_{\cdot j}$ ，那么
$C=\begin{bmatrix} c_{\cdot 1}&\cdots&c_{\cdot p} \end{bmatrix} =\begin{bmatrix} Ab_{\cdot 1}&\cdots&Ab_{\cdot p} \end{bmatrix}$
记矩阵 $C$ 中各行向量为 $c_{i\cdot }, i\in\{1,\dots,m\}$ ，矩阵 $A$ 中的各行向量为 $a_{i\cdot}$ ，那么
$C=\begin{bmatrix} c_{1\cdot } \\ \vdots \\ c_{m\cdot } \end{bmatrix} =\begin{bmatrix} a_{1\cdot}B \\ \vdots \\ a_{m\cdot}B \end{bmatrix}$
记矩阵 $A$ 的各列向量为 $a_{\cdot k}$ ，矩阵 $B$ 的各行向量为 $b_{k\cdot}$ ，则
$C=\sum_{k=1}^{n}a_{\cdot k}b_{k\cdot}$

在我看来，我们可以用一种更直观的方式来理解以上运算过程。假设矩阵 $A$ 是 $3\times 2$ ，矩阵 $B$ 是 $2\times 2$ ，那么我们可以把 $A$ 的行与列依次放在x轴和y轴上， $B$ 的行与列依次在y轴和z轴上，于是我们很容易发现 $C$ 的行与列上的向量长度正好各自符合x轴和z轴上的向量长度：
在这里插入图片描述
放到三维直角坐标系来看就是：

我们可以理解为，矩阵乘法就是在三维直角坐标系下把来自xOy平面和yOz平面的两个矩阵先是各自在同一y坐标下做笛卡尔积(Cartesian product)，获得 $3\times 2\times 2=12$ 个值；然后依y轴进行求和，最后把求和的结果投射到xOz平面上。将这个过程以不同次序来实现，就能得到以上所讲授的4种计算方法。

类似地，我们也可以凭此来理解block matrices的计算。

一个 $m\times m$ 的方阵 $A$ 可能有逆矩阵，也可能没有。如果存在一个不是零向量的向量 $x$ ，使得 $A x = 0$ ，那么 $A$ 必然没有逆矩阵——如果并非如此，那么两边同乘 $A$ 的“逆矩阵”之后，会得出 $x = 0$ 这样一个与前提矛盾的结论。

给定方阵 $A$ ，且我们确定 $A$ 存在逆矩阵，即存在 $A^{-1}$ 使得
$A^{-1}A=I=AA^{-1}$
那么如何计算 $A^{-1}$ 呢？通用的方法就是建立增广矩阵 $\begin{bmatrix} A \mid I \end{bmatrix}$ ，通过Gauss-Jordan法，我们通过一系列行变换使得
$E\begin{bmatrix} A \mid I \end{bmatrix}= \begin{bmatrix} I \mid E \end{bmatrix}$
其中矩阵 $E$ 就代表了我们对上述增广矩阵进行的行变换操作，而且正好 $E=A^{-1}$ 。如果放到三维直角坐标系下来观测的话那么正好就是以下图示：
在这里插入图片描述
这也就是说，通过构建增广矩阵，我们把代表行变换操作的矩阵从xOy平面投射到了xOz平面，这一投射是通过在yOz平面上沿z轴叠加单位矩阵来实现的。

Lecture 4

假如我们知道矩阵 $A$ 和 $B$ 都是方阵，而且都是可逆的，分别记为 $A^{-1}$ 和 $B^{-1}$ ，那么我们就有
$\begin{align} ABB^{-1}A^{-1}&=I \\ B^{-1}A^{-1}AB&=I \end{align}$
那么 $A B$ 的转置，即 $AB)^{T}$ ，该如何表示呢？在STRANG G. Linear Algebra and Its Applications[M]. Edition 4. Brooks Cole, 2006.一书的第56页中我们可以知道， $AB)^{T}$ 的第一行正好对应 $A B$ 的第一列，即以 $B$ 的第一列为系数对 $A$ 按列求和；这也就意味着 $AB)^{T}$ 的第一行是以 $B^{T}$ 的第一行为系数对 $A^{T}$ 按行求和。以此类推我们就能知道
$AB)^{T}=B^{T}A^{T}$
所以我们就有
$AA^{-1}=I=(A^{-1})^{T}A^{T}$
因此我们能进一步得知
$A^{T})^{-1}=(A^{-1})^{T}$
接下来介绍矩阵的三角分解(triangular factorization)。这一分解和消去法有很强的关联。比如，我们可以写出这样的等式：
$E_{21}A= \begin{bmatrix} 1 & 0 \\ -4& 1 \end{bmatrix} \begin{bmatrix} 2 & 1 \\ 8 & 7 \end{bmatrix}= \begin{bmatrix} 2 & 1 \\ 0 & 3 \end{bmatrix} =U$
若我们把上式改写成 $A = LU$ 的形式，那么我们有
$\begin{bmatrix} 2 & 1 \\ 8 & 7 \end{bmatrix}= \begin{bmatrix} 1 & 0 \\ 4 & 1 \end{bmatrix} \begin{bmatrix} 2 & 1 \\ 0 & 3 \end{bmatrix}$
进一步地，改写为 $A = L D U$ 形式的话就有
$\begin{bmatrix} 2 & 1 \\ 8 & 7 \end{bmatrix}= \begin{bmatrix} 1 & 0 \\ 4 & 1 \end{bmatrix} \begin{bmatrix} 2 & 0 \\ 0 & 3 \end{bmatrix} \begin{bmatrix} 1 & \frac{1}{2} \\ 0 & 1 \end{bmatrix}$
相比较 $E A = U$ 中的 $E$ ， $A = LU$ 中的 $L$ 有更好的性质：在没有行交换的情况下， $L$ 下三角部分的每一个元素都精确表示了从 $A$ 变换到 $U$ 的乘数。

设 $A$ 是 $n\times n$ 的一个矩阵，那么 $A = LU$ 这一分解的时间复杂度就为 $O(n^3)$ 。

假如从 $A$ 到 $U$ 的变换过程包含了行交换呢？那么这里就需要置换矩阵(permutation matrix)。比如对于 $3\times 3$ 的矩阵，其所施加的全部可能置换为
$\begin{align} \begin{bmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{bmatrix} \begin{bmatrix} 0 & 1 & 0 \\ 1 & 0 & 0 \\ 0 & 0 & 1 \end{bmatrix} \begin{bmatrix} 0 & 0 & 1 \\ 0 & 1 & 0 \\ 1 & 0 & 0 \end{bmatrix} \\ \begin{bmatrix} 1 & 0 & 0 \\ 0 & 0 & 1 \\ 0 & 1 & 0 \end{bmatrix} \begin{bmatrix} 0 & 1 & 0 \\ 0 & 0 & 1 \\ 1 & 0 & 0 \end{bmatrix} \begin{bmatrix} 0 & 0 & 1 \\ 1 & 0 & 0 \\ 0 & 1 & 0 \end{bmatrix} \end{align}$
对于置换矩阵 $P$ ，我们显然有
$P^{-1}=P^{T}$
道理是很简单的。设 $e\in\mathbf{R}^{n},\|e\|_{0}=\|e\|_{1}=1$ ，且对于 $\forall i\in\{1,\dots,n\}$ ，记 $e_{i}$ 为第 $i$ 个元素为 $1$ 、其余元素皆为 $0$ 的向量。那么我们可以把 $P$ 的每一列都看成是一个 $e_{i}$ 向量。显然，如果 $P$ 的大小为 $n\times n$ ，那么 $P$ 的全部可能数量为 $n!$ ，正好是 $n$ 个 $e_{i}$ 的排列数。假如我们把 $e_{i}$ 的排列打乱，由此形成的新排列以 $e_{q1},e_{q2},\dots,e_{qn}$ 编号，那么对由此组成的新的置换矩阵
$P=\begin{bmatrix} e_{q1} &\cdots & e_{qn} \end{bmatrix}$
考虑到
$e_{qi}e_{qi}^{T}=\Lambda_{qi}$
其中 $\Lambda_{qi}$ 是一个对角矩阵，其对角线上的第 $q i$ 个元素为1，而其余元素皆为0。

于是，我们必然有
$PP^{T}= \begin{bmatrix} e_{q1} &\cdots & e_{qn} \end{bmatrix} \begin{bmatrix} e_{q1}^{T} \\ \vdots \\ e_{qn}^{T} \end{bmatrix} =I$
回忆一下计算矩阵乘法的第4种方法。

因为上式的 $P$ 是任意的，所以 $P^{T}=P^{-1}$ 得证。

Lecture 5（上半）

考虑到我们需要行变换操作以确保pivot不为零，那么三角分解的公式就应该写为
$P A = LU$
其中 $A$ 是待分解的矩阵， $P$ 为置换矩阵， $L$ 为下三角矩阵， $U$ 为上三角矩阵。

对于置换矩阵 $P$ ，我们已经知道 $PP^T=I$ 。那么对于一个任意的矩阵和它的置换，两者之间有何关系呢？

给定矩阵 $A\in\mathbf{R}^{m\times n}$ ，我们显然有 $A^{T}\in\mathbf{R}^{n\times m}$ 。假如我们记 $A)_{i,j}$ 为矩阵 $A$ 中第 $i$ 行第 $j$ 列的元素，那么我们必然有：
$A^T)_{i,j}=(A)_{j,i}$
进一步地，我们还能发现 $A^TA)^T=A^T(A^T)^T=A^TA$ ，即 $A^TA$ 是一个对称矩阵。（如果矩阵 $M$ 是一个对称矩阵，那么我们必然有 $M^T=M$ ）