[笔记][总结] MIT线性代数 Gilbert Strang 线性变换和基变换

最新推荐文章于 2022-01-25 22:27:51 发布

TZR986981442

最新推荐文章于 2022-01-25 22:27:51 发布

阅读量797

点赞数 1

分类专栏： MIT线性代数 Gilbert Strang 文章标签：线性代数

本文链接：https://blog.csdn.net/TZR986981442/article/details/104804267

版权

MIT线性代数 Gilbert Strang 专栏收录该内容

10 篇文章 5 订阅

订阅专栏

作者水平有限，欢迎大家提出文中错误

线性变换和基变换

基本概念
- 基
- 线性变换
矩阵如何描述线性变换
- 坐标与基
- 线性变换的矩阵表示
线性变换的几何图像

基本概念

基

设 $V$ 是数域 $K$ 上的线性空间， $x_1,x_2,\cdots,x_r \in V$ ，若 $x_1,x_2,\cdots,x_r$ 可以

$x_1,x_2,\cdots,x_r$ 线性无关
$span\{x_1,x_2,\cdots,x_r\}=V$

称 $x_1,x_2,\cdots,x_r$ 是 $V$ 的一组基

线性变换

如果数域 $K$ 上有线性空间 $V$ 的一个变换 $T$ 具有下列性质：
$T(kx+ly)=kT(x)+lT(y),x,y\in V;k,l\in K$
则称 $T$ 是 $V$ 的一个线性变换或线性算子

投影变换是线性变换
平移变换不是线性变换
$T(v)=\left| |v| \right|$ 不是线性变换
以原点为轴的旋转是线性变换
导数算符是一种线性算子

矩阵如何描述线性变换

坐标与基

显然 $A(\cdot)$ 是一个线性变换
但是矩阵 $A$ 如何描述一个变换呢？
$T (v) = A v$
矩阵 $A_{m*n}$ ，描述了线性变换 $T(*):\ \real^n\rightarrow\real^m$ （只考虑矩阵右乘）

$T(v_1)$ 可以描述线性变换对向量 $v_1$ 的操作
$T(v_2)$ 可以描述线性变换对向量 $v_2$ 的操作
如果假设两向量线性无关，那么就可以知道 $T$ 对 $v_1$ 和 $v_2$ 张成的整个空间的操作

所以我们如果有 $T(v_1)\cdots T(v_n)$ ， $v_1\cdots v_n$ 构成了输入空间 $\mathbb R^n$ 的一组基。那么整个线性变换就完全掌握了。

对于输入空间中的任意一个向量均有
$v=c_1v_1+c_2v_2+\cdots+c_nv_n$

$T(v)=c_1T(v_1)+c_2T(v_2)+\cdots+c_nT(v_n)$
可见如果空间中的一组基被确定了，那么向量 $v$ 的表示也就被唯一确定了
$c_1\cdots c_n$ 被称为向量 $v$ 在基 $v_1\cdots v_n$ 下的坐标值，坐标来源于基，而线性变换和向量本身于坐标无关

线性变换的矩阵表示

如果想通过矩阵确定一个线性变换，还缺什么
选取输入空间 $\mathbb R^n$ 一组基 $v_1\cdots v_n$ ，输出空间 $\mathbb R^m$ 的一组基 $w_1\cdots w_m$
$T(v)=c_1T(v_1)+c_2T(v_2)+\cdots+c_nT(v_n)=$

$[T(v_1)\ T(v_2)\cdots T(v_n)] \left[ \begin{matrix} c_1\\ c_2\\ \vdots\\ c_n \end{matrix} \right]$
$[T(v_1)\ T(v_2)\cdots T(v_n)]$ 描述了这个线性变换

$T(v_i)$ 是输出空间 $\mathbb R^m$ 的一个向量，在基 $w_1\cdots w_m$ 下它有一组坐标值为基 $a_{1i}\cdots a_{mi}$

$[T(v_1)\ T(v_2)\cdots T(v_n)]=[w_1\ w_2\cdots w_m] \left[ \begin{matrix} a_{11}&a_{12}&\cdots &a_{1n}\\ a_{21}&a_{22}&\cdots &a_{2n}\\ \vdots&\vdots&\ddots &\vdots\\ a_{m1}&a_{m2}&\cdots &a_{mn}\\ \end{matrix} \right]$
假设输出向量为 $w = T (v)$
$w=b_1w_1+b_2w_2+\cdots+b_mw_m=[w_1 w_2\cdots w_m] \left[ \begin{matrix} b_1\\ b_2\\ \vdots\\ b_m \end{matrix} \right]$
最后
$[w_1\ w_2\cdots w_m] \left[ \begin{matrix} a_{11}&a_{12}&\cdots &a_{1n}\\ a_{21}&a_{22}&\cdots &a_{2n}\\ \vdots&\vdots&\ddots &\vdots\\ a_{m1}&a_{m2}&\cdots &a_{mn}\\ \end{matrix} \right] \left[ \begin{matrix} c_1\\ c_2\\ \vdots\\ c_n \end{matrix} \right]= [w_1 w_2\cdots w_m] \left[ \begin{matrix} b_1\\ b_2\\ \vdots\\ b_m \end{matrix} \right]$

$\left[ \begin{matrix} a_{11}&a_{12}&\cdots &a_{1n}\\ a_{21}&a_{22}&\cdots &a_{2n}\\ \vdots&\vdots&\ddots &\vdots\\ a_{m1}&a_{m2}&\cdots &a_{mn}\\ \end{matrix} \right] \left[ \begin{matrix} c_1\\ c_2\\ \vdots\\ c_n \end{matrix} \right]= \left[ \begin{matrix} b_1\\ b_2\\ \vdots\\ b_m \end{matrix} \right]$
$A c = b$
$A$ 在基 $v_1\cdots v_n$ 和 $w_1\cdots w_m$ 下描述了线性变换， $c$ 是向量 $v$ 的坐标， $b$ 是向量 $w = T (v)$ 的坐标。

总之，矩阵 $A$ 的各列是输入空间各基经过线性变换后，在输出空间的一组基下的坐标

线性变换的几何图像

接下来，看一下 $\mathbb R^3$ 空间的变换，在 $\mathbb R^3$ 空间放置一个单位立方体，观察其在线性变化下的变化
在这里插入图片描述

恒等变换 $I$

$\left[ \begin{matrix} 1&0&0\\ 0&1&0\\ 0&0&1 \end{matrix} \right]$
在恒等变换下，所有向量均映射到自身，单位立方体不变
在这里插入图片描述

拉伸/压缩变换

$\left[ \begin{matrix} a&0&0\\ 0&1&0\\ 0&0&1 \end{matrix} \right]$
在这里插入图片描述
一维拉伸/压缩变换对应的是行/列倍乘矩阵，可见当 $0 < a < 1$ 的时候为压缩变换， $a$ 为压缩比；当 $a > 1$ 的时候，为拉伸变换， $a$ 为拉伸比。
而当 $a < 0$ 的时候，为坐标面的镜像变换，和拉伸变换的合变换。

剪切变换 $E$

$\left[ \begin{matrix} 1&0&0\\ 0&1&0\\ a&0&1 \end{matrix} \right]$
在这里插入图片描述
剪切变换对应的是行/列倍加矩阵

旋转变换 $R$

角速度在 $x$ 轴方向的旋转
$\left[ \begin{matrix} 1&0&0\\ 0&cos\theta & -sin\theta \\ 0&sin\theta &cos\theta \end{matrix} \right]$
右下角的二阶子方阵为二维的旋转矩阵
在这里插入图片描述
角速度在 $y$ 轴方向的旋转
$\left[ \begin{matrix} cos\theta& 0&sin\theta\\ 0& 1& 0\\ -sin\theta &0&cos\theta \end{matrix} \right]$

角速度在 $z$ 轴方向上的旋转
$\left[ \begin{matrix} cos\theta& -sin\theta&0\\ sin\theta& cos\theta&0\\ 0&0&1 \end{matrix} \right]$
在这里插入图片描述
其他所有旋转都可以由这三种旋转组合生成

单位正交矩阵 $R$

旋转矩阵都是单位正交矩阵，但是除了单位正交矩阵，单位正交矩阵对应的线性变换还有恒等变换，镜像变换。
正交矩阵则是个更大的家族，允许对向量的长度进行拉伸或压缩。

投影矩阵

下面有向量场，是 $z=x^2+y^2$ 的梯度场（将向量分布于平面 $z = x - y$ 上），如何把 $\nabla z$ 投影到平面 $z = x - y$ 上？
在这里插入图片描述

投影矩阵
$A(A^TA)^{-1}A^T$
下面的问题是如何确定 $A$ ， $C(A)=\{v|v_3=v_1-v_2\}$
随便找两个平面上的不线性相关的向量，组成矩阵
$\left[ \begin{matrix} 1&0\\ 0&1\\ 1&-1 \end{matrix} \right]$
构造投影矩阵
$P=A(A^TA)^{-1}A^T= \left[ \begin{matrix} 2/3&1/3&1/3\\ 1/3&2/3&-1/3\\ 1/3&-1/3&2/3 \end{matrix} \right]$
$P$ 左乘向量场中各向量后
在这里插入图片描述

秩的含义

矩阵的秩在线性变换中代表着变换后的空间的维数，如上面的投影矩阵，秩为2，而线性变换后的输出空间也为2（但是注意，输出空间还在 $\mathbb R^3$ 中）。

矩阵乘法的意义

矩阵乘法其实是依照一定次序的线性变换的合变换。
在这里插入图片描述
这样的旋转是怎么生成的？
它是把立方体的空间对角线旋转至与 $z$ 轴重合，然后进行 $z$ 轴的旋转
首先，以 $x$ 轴为轴旋转 $45\degree$ ，将一条棱放在 $x O z$ 做表面上

然后以 $y$ 轴为轴旋转 $-arctan(\frac{1}{\sqrt 2})\ rad$
在这里插入图片描述
然后乘以 $z$ 轴的旋转矩阵

如果上面的三个矩阵交换次序是无法得出一样得结果的，这是从几何意义上讲为什么矩阵乘法不能交换次序。

逆变换与矩阵积的求逆法则

$A^{-1}A=I$ ，经过矩阵和其逆的共同作用，一切恢复了原样（恒等变换），矩阵逆代表的是其逆变换

接着上面的例子，如果想将对角线恢复到原来的位置，但是保持旋转，需要做什么
记得最开始在施加旋转效果之前，有两个常旋转矩阵，只需要按步骤依次将这两个矩阵消除即可。
所以首先，以 $y$ 轴为轴旋转 $arctan(\frac{1}{\sqrt 2})\ rad$
在这里插入图片描述
然后以 $x$ 轴为轴旋转 $-45\degree$

$AB)^{-1}=B^{-1}A^{-1}$
这个道理就像俄罗斯套娃，必须把外层的先打开，才能继续打开里面的

基变换

在本文开头，已经知道一个线性变换只有在基给定的情况下，矩阵才能描述一个线性变换，但是对于同一线性变换，不同基的形式之间有什么联系？
先考虑一个向量 $v$ 在不同的基下，坐标之间有什么联系

假设旧基为 $x_1\ x_2\cdots x_n$ ，这组基下 $v$ 的坐标为 $\alpha_1\ \alpha_2\cdots \alpha_n$ ，新基为 $y_1\ y_2\cdots y_n$ ，这组基下 $v$ 的坐标为 $\beta_1\ \beta_2\cdots \beta_n$
$v=\alpha_1x_1+\alpha_2x_2+\cdots+\alpha_nx_n=\beta_1y_1+\beta_2y_2+\cdots+\beta_ny_n$
$v=\left[x_1\ x_2\cdots x_n\right] \left[ \begin{matrix} \alpha_1\\ \alpha_2\\ \vdots\\ \alpha_n \end{matrix} \right]= \left[y_1\ y_2\cdots y_n\right] \left[ \begin{matrix} \beta_1\\ \beta_2\\ \vdots\\ \beta_n \end{matrix} \right]$
假设 $y_i$ 的 $x_1\ x_2\cdots x_n$ 线性表示为
$y_i=w_{i1}x_i+w_{i2}x_i+\cdots +w_{in}x_i$
$[x_1\ x_2\cdots x_n] \left[ \begin{matrix} w_{11}&w_{12}&\cdots &w_{1n}\\ w_{21}&w_{22}&\cdots &w_{2n}\\ \vdots&\vdots&\ddots &\vdots\\ w_{n1}&w_{n2}&\cdots &w_{nn}\\ \end{matrix} \right]= [y_1 y_2\cdots y_n]$
$v=\left[x_1\ x_2\cdots x_n\right] \left[ \begin{matrix} \alpha_1\\ \alpha_2\\ \vdots\\ \alpha_n \end{matrix} \right]= [x_1\ x_2\cdots x_n] \left[ \begin{matrix} w_{11}&w_{12}&\cdots &w_{1n}\\ w_{21}&w_{22}&\cdots &w_{2n}\\ \vdots&\vdots&\ddots &\vdots\\ w_{n1}&w_{n2}&\cdots &w_{nn}\\ \end{matrix} \right] \left[ \begin{matrix} \beta_1\\ \beta_2\\ \vdots\\ \beta_n \end{matrix} \right]$
$\left[ \begin{matrix} \alpha_1\\ \alpha_2\\ \vdots\\ \alpha_n \end{matrix} \right]= \left[ \begin{matrix} w_{11}&w_{12}&\cdots &w_{1n}\\ w_{21}&w_{22}&\cdots &w_{2n}\\ \vdots&\vdots&\ddots &\vdots\\ w_{n1}&w_{n2}&\cdots &w_{nn}\\ \end{matrix} \right] \left[ \begin{matrix} \beta_1\\ \beta_2\\ \vdots\\ \beta_n \end{matrix} \right]$
$\alpha=W\beta$
综上，如果新基等于旧基和旧基关系如下
$[y_1\ y_2\cdots y_n]=[x_1\ x_2\cdots x_n]W$
上式称为基变换

如果 $v$
在基 $y_1\ y_2\cdots y_n$ 的坐标为 $\beta_1\ \beta_2\cdots \beta_n$ ，
在基 $x_1\ x_2\cdots x_n$ 的坐标为 $\alpha_1\ \alpha_2\cdots \alpha_n$

那么两组坐标的关系是
$\alpha=W\beta$
或表示成
$v]_x=W[v]_y$
称为坐标变换， $W$ 称为过渡矩阵

再议相似性

回到本节最开始的问题，在不同的基下，相同线性变换的矩阵有什么联系？
首先应该重申一下，相似矩阵是方阵中的概念
方阵就意味着输入空间和输出空间是同一个空间

有基变换
$[y_1\ y_2\cdots y_n]=[x_1\ x_2\cdots x_n]W$
向量 $v$ 的坐标变换为
$\alpha=W\beta$
向量 $T (v)$ 的坐标变换为
$\gamma=W\delta$
线性变换矩阵
$\left[ \begin{matrix} a_{11}&a_{12}&\cdots &a_{1n}\\ a_{21}&a_{22}&\cdots &a_{2n}\\ \vdots&\vdots&\ddots &\vdots\\ a_{n1}&a_{n2}&\cdots &a_{nn}\\ \end{matrix} \right] \left[ \begin{matrix} \alpha_1\\ \alpha_2\\ \vdots\\ \alpha_n \end{matrix} \right]= \left[ \begin{matrix} \gamma_1\\ \gamma_2\\ \vdots\\ \gamma_n \end{matrix} \right]$
什么样的矩阵 $B$ 可以满足
$\left[ \begin{matrix} \beta_1\\ \beta_2\\ \vdots\\ \beta_n \end{matrix} \right]= \left[ \begin{matrix} \delta_1\\ \delta_2\\ \vdots\\ \delta_n \end{matrix} \right]$
$BW^{-1} \left[ \begin{matrix} \alpha_1\\ \alpha_2\\ \vdots\\ \alpha_n \end{matrix} \right]=W^{-1} \left[ \begin{matrix} \gamma_1\\ \gamma_2\\ \vdots\\ \gamma_n \end{matrix} \right]$
所以矩阵 $A, B$ 的关系为
$B=W^{-1}AW$
这正是相似矩阵的定义式

特征基和对角化

可对角化的矩阵是相似于对角阵的矩阵
$\Lambda=S^{-1}AS$
如果以基变换的角度来审视对角化
$A$ 描述了某基下的线性变换，有特征向量矩阵 $S$ ，也是从现有基过渡到特征基的过渡矩阵。
为什么要选取特征基，线性变换在特征基下可以表示成对角阵，其在多次线性变换后基不会偏离原来的方向，各坐标之间不会相互耦合。
$\left[ \begin{matrix} 1.5&&\\ &2&\\ &&3\\ \end{matrix} \right]^a$
在这里插入图片描述