[笔记][总结] MIT线性代数 Gilbert Strang 矩阵的应用

最新推荐文章于 2024-10-13 07:00:00 发布

TZR986981442

最新推荐文章于 2024-10-13 07:00:00 发布

阅读量635

点赞数

分类专栏： MIT线性代数 Gilbert Strang 文章标签：线性代数

本文链接：https://blog.csdn.net/TZR986981442/article/details/104777397

版权

MIT线性代数 Gilbert Strang 专栏收录该内容

10 篇文章

订阅专栏

作者水平有限，欢迎大家提出文中错误

矩阵的应用

电路理论
一阶差分方程
一阶常系数微分方程
$M a r k o v$ 模型
傅里叶级数
FFT
图像压缩

电路理论

图的矩阵表示——邻接矩阵

假设一个图有 $m$ 条边和 $n$ 个节点，那么这个图的邻接矩阵就是 $G_{m*n}(G\ for\ graph)$ ，其中，元素 $a_{ij}$ 代表了图的第 $i$ 个边是否与节点 $j$ 相连，如果图是有向图，那么这个元素的正负分别代表了流出和流入。
在这里插入图片描述
这个图的邻接矩阵为
$G=\left[ \begin{matrix} 1&-1&0&0\\ 0&1&-1&0\\ 1&0&-1&0\\ 1&0&0&-1\\ 0&0&1&-1\\ \end{matrix} \right]$

回路

$G=\left[ \begin{matrix} 1&-1&0&0\\ 0&1&-1&0\\ 1&0&-1&0\\ &&&\\ &&&\\ \end{matrix} \right]$
观察边1，2，3，发现他们构成了一个回路
同时这部分矩阵的行不是线性无关的，在邻接矩阵中，线性相关代表着回路，如果一个子图是一个树，那么其对应的子矩阵秩等于边数

零空间

$G\phi=0$
$\phi=[\phi_1\ \phi_2\ \phi_3\ \phi_4]^T$
$G\phi= \left[ \begin{matrix} \phi_1-\phi_2\\ \phi_2-\phi_3\\ \phi_1-\phi_3\\ \phi_1-\phi_4\\ \phi_3-\phi_4\\ \end{matrix} \right]= \left[ \begin{matrix} u_1\\ u_2\\ u_3\\ u_4\\ u_5\\ \end{matrix} \right]=u$
如果将 $\phi$ 定义为节点的电势
那么 $G\phi$ 就是各边上的电势差， $G$ 包含的拓扑信息，同时规定了各边的正方向
$N (G)$ 中向量的意义就是电势差为零的节点电势状态
$[1\ 1\ 1\ 1\ 1]$ 是 $N (G)$ 的一个基，同时通过计算可以知道 $rank\ G=1$ 所以这个基可以张成整个零空间。
这个解代表了什么，代表了各点电势相等，所以边上没有电势差

如果想确定下来这个电势相等的状态还差什么，在微分方程中，确定解需要一个初始条件，这里也缺的是这样的一个边界条件。比如可以将节点4接地，规定其电势为0（实际上选哪个节点都无所谓，因为任意三列都线性无关）。

由于 $\phi_4=0$ 所以方程化为
$G'\phi=\left[ \begin{matrix} -1&1&0\\ 0&-1&1\\ -1&0&1\\ -1&0&0\\ 0&0&-1\\ \end{matrix} \right] \left[ \begin{matrix} \phi_1\\ \phi_2\\ \phi_3\\ \end{matrix} \right]=0$
$G^{'}$ 列满秩，解唯一

左零空间

$G^Ti=0$
如果定义 $i$ 为各边的电流强度，就得到了一个代表净流入各节点的电流强度的向量
而 $G^Ti=0$ ，正是基尔霍夫电流定律KCL

$Ohm's\ law$

向量 $u$ 和向量 $i$ 分别代表着各边上的电压值和电流值，如果电路各支路之间无耦合
$u=\left[ \begin{matrix} R_{edge_1}&&&\\ &R_{edge_2}&&\\ &&\ddots&\\ &&&R_{edge_5}\\ \end{matrix} \right]i$
这个对角矩阵叫做阻抗矩阵 $Z$ ，描述了各边上电压值和电流值得关系，注意，阻抗矩阵不一定是对角阵，比如电路中存在互感器，或者压控电压源或压控电流源的时候，电路中存在了耦合， $Z$ 不再是对角阵

同时也没有限制 $Z$ 中元素一定为实数，在存在电抗器件的交流电路中， $Z$ 将变成一个复矩阵。

此外阻抗矩阵的逆矩阵被称为导纳矩阵 $Y$ ， $i = Y u$

再议回路

矩阵 $G$ 的左零空间 $dim\ N(G^T)=2$ ，这个值代表的是图中，线性无关的回路的数量
$dim\ N(G^T)=m-r$
代表着
$\#loops=\#edges-(\#nodes-1)$
上式称为 $Euler's\ formula$

外部电源

电路中都会有外部电源，外部电源体现在什么地方？
对于电压源不难发现，体现在矩阵方程 $G\phi=u$ 中
如果存在电流源，矩阵方程 $G^Ti=f$ ， $f$ 将不再为0，因为有电流从某节点流入从某节点流出，看起来就好像存在着源点和阱点，但是注意，电流源从一个节点拉出的电流和从另一个节点灌入的电流必须相等，这意味着 $f$ 中所有元素之和一定是0。

电路理论的三个核心方程

$u=G\phi$
$G^Ti=f$
$u=Zi\ or\ i=Yu$
将三个方程整合
$G^TYG\phi=f$
上式是稳态的数学问题的核心方程。

一阶差分方程

$u_{k+1}=Au_k,u_0\ is\ known.$
对角化 $A$
$u_k=A^ku_0$
设 $A$ 的特征向量分别为 $x_1,x_2\cdots x_n$
将 $u_0$ 使用特征向量线性表示
$u_0=c_1x_1+c_2x_2+\cdots+c_nx_n$
则
$Au_0=c_1\lambda_1x_1+c_1\lambda_2x_2+\cdots+c_1\lambda_nx_n$
$A^ku_0=c_1\lambda^k_1x_1+c_1\lambda^k_2x_2+\cdots+c_1\lambda^k_nx_n$
$u_k=A^ku_0=\Lambda^kSc$

例子

$F i b o n a c c i$ 数列
$F_{k+1}=F_k+F_{k-1},F_0=0,F_1=1$
令 $u_k=[F_{k+1}\ F_{k}]^T$
$u_{k+1}= \left[ \begin{matrix} 1&1\\ 1&0\\ \end{matrix} \right] u_k,u_0= \left[ \begin{matrix} 1\\ 0\\ \end{matrix} \right]$
特征值 $\lambda_1=\frac{1}{2}(1+\sqrt5)\approx1.618,\lambda_2=\frac{1}{2}(1-\sqrt5)$
这两个特征值的绝对值一个大于一，一个小于一，当 $k\rightarrow\infin$ ， $\lambda_2^k\rightarrow0$ ，所以
$u_k=\lambda_1^kx_1c_1,k\rightarrow \infin$
可以求得 $x_1=[\lambda_1\ 1]^T$ ， $x_2=[\lambda_2\ 1]^T$
$c=S^{-1}u_0= \frac{1}{\lambda_1-\lambda_2} \left[ \begin{matrix} 1&-\lambda_2\\ -1&\lambda_1\\ \end{matrix} \right] \left[ \begin{matrix} 1\\ 0\\ \end{matrix} \right]=\frac{1}{\lambda_1-\lambda_2} \left[ \begin{matrix} 1\\ -1\\ \end{matrix} \right]$
最后得到
$u_k=\frac{1}{\sqrt5}\left[{\frac{1}{2}(\sqrt5+1)}\right]^k \left[ \begin{matrix} {\frac{1}{2}(\sqrt5+1)}\\ 1\\ \end{matrix} \right] ,k\rightarrow \infin$
$F_k=\frac{1}{\sqrt5}\left[{\frac{1}{2}(\sqrt5+1)}\right]^k ,k\rightarrow \infin$
在这里插入图片描述

一阶常系数微分方程

$\frac{d}{dt}u_1=-u_1+2u_2$

$\frac{d}{dt}u_2=u_1-2u_2$
$\frac{d}{dt}u=Au$
$\left[ \begin{matrix} -1&2\\ 1&-2 \end{matrix} \right], u=\left[ \begin{matrix} u_1\\ u_2 \end{matrix} \right]$
找到 $A$ 的特征值
$\lambda_1=0,\lambda_2=-3$
特征向量
$x_1=[2\ 1]^T,x_2=[1\ -1]^T$
解为
$u(t)=c_1e^{\lambda_1t}x_1+c_2e^{\lambda_2t}x_2$
如果在一阶差分方程中， $A$ 对应的解为 $u_k=\lambda_1^kx_1c_1+\lambda_2^kx_2c_2$ ，两个式子一个是离散的一个是连续的
方程通解 $u=c_1 \left[ \begin{matrix} 2\\ 1 \end{matrix} \right]+c_2e^{-3t} \left[ \begin{matrix} 1\\ -1 \end{matrix} \right]$
$c_1$ 和 $c_2$ 是由初始条件决定的
假设初始条件是 $u(0)=[1\ 0]^T$
解得 $c_1=c_2=1/3$
最终解为 $u=\frac{1}{3} \left[ \begin{matrix} 2\\ 1 \end{matrix} \right]+\frac{1}{3}e^{-3t} \left[ \begin{matrix} 1\\ -1 \end{matrix} \right]$
$u(\infin)=\frac{1}{3} \left[ \begin{matrix} 2\\ 1 \end{matrix} \right]$ 为稳定状态

特征值与稳定性

$stability:all\ real\ parts\ of\ eigenvalues\ are\ negative.$

那假如说特征值的虚部大于零会怎么样，假设有函数 $y=e^{(-2+6i)t}$ ，取其模，发现 $y|=e^{-2t}$ ，依然收敛，那么虚部有什么作用。

答案是震荡，虚部越大，震荡越剧烈
$has\ steady\ state:\lambda_1=0,and\ the\ other\ eigenvalues'\ real\ parts\ are\ negative.$
$blow\ up:\ if\ any\ eigenvalue's\ real\ part\ is\ positive.$

$2\ by\ 2$

二阶的系数矩阵
$\left[ \begin{matrix} a&b\\ c&d\\ \end{matrix} \right]$
解要想稳定必须有 $Re\{\lambda_1\}<0,Re\{\lambda_2\}<0$
那么 $t r a c e = a + d < 0$ ,并且 $det\ A>0$

解耦与对角化

由于 $A$ 不是对角阵，所以 $\frac{d}{dt}u=Au$ 中的 $u_1$ 和 $u_2$ 是耦合的，要想解耦，需要对 $A$ 进行对角化。
令 $u = S v$ .， $S$ 是 $A$ 的特征向量矩阵
$S\frac{d}{dt}v=ASv$
$\frac{d}{dt}v=S^{-1}ASv=\Lambda v$
方程化为
$\frac{d}{dt}v=\Lambda v$
解为
$v(t)=e^{\Lambda t}v(0)$
$u(t)=e^{At}=Se^{\Lambda t}S^{-1}v(0)$

$Matrix\ exponential\ u=e^{At}u(0)$

微积分中知道 $y=e^x$ 的幂级数展开为
$e^x=\sum\limits_{i=0}^\infin \frac{1}{i!}x^i$
而矩阵指数为
$e^{At}=\sum\limits_{i=0}^\infin \frac{1}{i!}(At)^i,(At)^0=I$
再有幂级数
$\sum\limits_{i=0}^\infin x^i=\frac{1}{1-x},x\in (-\infin,1)$
则
$\sum\limits_{i=0}^\infin (At)^i=(I-At)^{-1}$
如果 $A t$ 有特征值大于等于1，那么级数将不收敛

回到方程中

$u(t)=e^{At}=\sum\limits_{i=0}^\infin \frac{1}{i!}(At)^i=\sum\limits_{i=0}^\infin \frac{1}{i!}(S\Lambda S^{-1})^i\ t^i=S\left(\sum\limits_{i=0}^\infin \frac{1}{i!}(\Lambda t )^i\ t^i\right)S^{-1}=Se^{\Lambda t}S^{-1}v(0)$
当指数矩阵是对角矩阵的时候
$e^{\Lambda t}=\left[ \begin{matrix} e^{\lambda_1}&&&\\ &e^{\lambda_2t}&&\\ &&\ddots&\\ &&&e^{\lambda_nt}\\ \end{matrix} \right]$
可以看出，只要有 $Re\{\lambda\}$ 大于0，解将不会收敛
在这里插入图片描述

浅谈二阶线性微分方程

$y^{''} + b y^{'} + k y = 0$
如何将上述方程化为一阶
令 $u=[y'\ y]^T$
则方程化为
$u'=\left[ \begin{matrix} -b&-k\\ 1&0 \end{matrix} \right] u$
进而，如果有 $n$ 阶线性微分方程，那么就可以把其化为 $n$ 个一阶线性微分方程。

$M a r k o v$ 模型

$M a r k o v$ 矩阵

$M a r k o v$ 矩阵有三个特点

方阵
各列元素和为1
所有元素非负

$P=\left[ \begin{matrix} 0.1&0.01&0.3\\ 0.2&0.99&0.3\\ 0.7&0&0.4\\ \end{matrix} \right]$
$P^n$ 也是 $M a r k o v$ 矩阵

稳态问题

考虑 $P$ 的特征值

$P$ 一定会有一个特征值 $\lambda=1$ ，而其他特征值的绝对值一定小于1。

在差分方程 $\pi_k=P^k\pi_0=\Lambda^k Sc$ 中，当 $k\rightarrow\infin$ 时，只有 $\lambda=1$ 的项被保留下来了。
$\pi_{\infin}=c_1x_1$
$x_1$ 中元素不会有负值

计算 $P - I$
$\left[ \begin{matrix} -0.9&0.01&0.3\\ 0.2&-0.01&0.3\\ -0.7&0&-0.6\\ \end{matrix} \right]$
可以发现矩阵各列和为0，所以其行列式一定为0，所以必有特征值1的特性得证
通过计算可知， $\lambda=1$ 的特征向量是 $0.6\ 33\ 0.7]^T$

实例

考虑两个州：加州和麻省的人口问题，假设人口只会在这两个州之间迁移，每年有
$90\%$ 的加州居民留在加州
$10\%$ 的加州居民迁至麻省
$20\%$ 的麻省居民迁至加州
$80\%$ 的麻省居民留在麻省
设 $u_k=[u_{cal}\ u_{mass}]^T$ 代表了第 $k$ 年之后，两州的人数
于是有矩阵方程 $u_{k+1}=Au_{k}$
$\left[ \begin{matrix} 0.9&0.2\\ 0.1&0.8\\ \end{matrix} \right]$
初始状态 $u_0=[0\ 1000]^T$
在这里插入图片描述
$A$ 的特征值 $\lambda_1=1$ ，其特征向量是 $2\ 1]^T$ ，另一个特征值是 $0.7$ ，并不重要，这个特征值就是稳态，经过足够长时间加州的人口数将是麻省的2倍。
$A_\infin=\left[ \begin{matrix} 2/3&2/3\\ 1/3&1/3 \end{matrix} \right]$

$M a r k o v$ 模型是一种概率模型，可以用一阶差分方程 $\pi_{k+1}=P\pi_k$ 描述，每一个状态 $\pi_k$ 只与上一个状态 $\pi_{k-1}$ 有关。

傅里叶级数

有单位正交基的投影矩阵

有投影矩阵 $Q=[q_1\ q_2\cdots q_n],Q^TQ=I$
有向量 $v=x_1q_1+x_2q_2+\cdots+x_nq_n$
$x=Q^Tv$
可以发现 $q_i^Tv=x_i$

傅里叶级数展开

$f(x)=a_0+a_1cosx+b_1sinx+a_2cos2x+b_2sin2x+\cdots+a_nconx+b_nsinnx+\cdots$

函数空间的正交

类比 $v^Tw=\sum\limits^n_{i=1}v_iw_i$
$f^Tg(x)=\int^T_0f(x)g(x)dx$
上式为 $f (x)$ 和 $g (x)$ 的内积

如果 $f^Tg=0$ 称两函数正交
通过计算，会发现 $\{sin\ ix, cos\ ix|i\in N\}$ 是函数空间的正交基

傅里叶级数系数

如果将 $cos\ nx$ 和 $f (x)$ 做内积
$\int_0^{2\pi}f(x)cos\ nx\ dx=a_n\int_0^{2\pi}cos^2\ nx\ dx=a_n\pi$
$a_n=\frac{1}{\pi}\int_0^{2\pi}f(x)cos\ nx\ dx$
同理，
$b_n=\frac{1}{\pi}\int_0^{2\pi}f(x)sin\ nx\ dx$

FFT

$F_n= \left[ \begin{matrix} 1&1&1&\cdots&1\\ 1&w_n&w^2_n &\cdots&w^{n-1}_n\\ \vdots&\vdots&\vdots&\ddots&\vdots\\ 1&w^{n-1}_n&w^{2(n-1)}_n&\cdots&w^{(n-1)(n-1)}_n\\ \end{matrix} \right]$
$F o u r i e r$ 矩阵有一个很好的性质，这种性质存在与 $F_{2n}$ 和 $F_n$ 之间， $w_{2n}^2=w_n$

以 $F_{64}$ 为例，假设 $F_{64}$ 可以拆成对角线上是 $F_{32}$ 的对角分块矩阵，引入两个修正矩阵对分块矩阵左乘和右乘。
$F_{64}= \left[ \begin{matrix} & &M&&\\ &&&&\\ \end{matrix} \right] \left[ \begin{matrix} F_{32}&O\\ O&F_{32}\\ \end{matrix} \right] \left[ \begin{matrix} & &P&&\\ & &&&\\ \end{matrix} \right]$
先计算一下计算开销，原来 $F_{64}$ 对序列做离散傅里叶变换，需要 $64^2$ 次复数乘法和若干次复数加法，对 $F_{32}$ 进行分解后，运算次数降为 $2(32^2)+fix\ up$

接下来先考虑右乘矩阵，右乘矩阵实际上是一个置换矩阵，用于将序列重排，偶元素在前，奇元素后

以 $P_8$ 为例
$P_8= \left[ \begin{matrix} 1&&&&&&\\ &&1&&&&\\ &&&&1&&&\\ &&&&&&1&\\ &1&&&&&\\ &&&1&&&\\ &&&&&1&&\\ &&&&&&&1\\ \end{matrix} \right]$
$P_8x= \left[ \begin{matrix} 1&&&&&&\\ &&1&&&&\\ &&&&1&&&\\ &&&&&&1&\\ &1&&&&&\\ &&&1&&&\\ &&&&&1&&\\ &&&&&&&1\\ \end{matrix} \right] \left[ \begin{matrix} x_0\\ x_1\\ x_2\\ x_3\\ x_4\\ x_5\\ x_6\\ x_7\\ \end{matrix} \right]= \left[ \begin{matrix} x_0\\ x_2\\ x_4\\ x_6\\ x_1\\ x_3\\ x_5\\ x_7\\ \end{matrix} \right]= \left[ \begin{matrix} x_{even}\\ x_{odd}\\ \end{matrix} \right]$
在对序列进行奇偶排列后，分别对 $x_{even}$ 和 $x_{odd}$ 做离散傅里叶变换，然后将变换后的序列重新组合，这个合并操作，由 $M(M\ for\ merge)$ 来完成。
$Diagonal(F_{32}) \left[ \begin{matrix} x_{even}\\ x_{odd}\\ \end{matrix} \right]= \left[ \begin{matrix} f_{even}\\ f_{odd}\\ \end{matrix} \right]$
$\left[ \begin{matrix} & &M&&\\ &&&&\\ \end{matrix} \right] \left[ \begin{matrix} f_{even}\\ f_{odd}\\ \end{matrix} \right]=f$
$M$ 矩阵为
$\left[ \begin{matrix} I&D\\ I&-D\\ \end{matrix} \right]$
无论是 $I$ 还是 $P$ ，在计算过程中都不需要太大开销，所以修正因子的计算开销主要由对角阵 $D$ 引入。总的计算开销为 $2(32^2)+32$

最后
$\left[ \begin{matrix} 1&&&&\\ &w_{64}&&&\\ &&w_{64}^2&&\\ &&&\ddots&\\ &&&&w_{64}^{31}\\ \end{matrix} \right]$
显然主要开销还是由 $F_{32}$ 引起，但是它可以被进一步分解，计算开销进一步下降为 $2[2(16)^2+16]+32$ ，持续下去。

递归基 $n = 2$ ，主要的递归式是
$O(FFT_{2n})=O(2FFT_n)+n$
递归基 $O(FFT_2)=4$
解得 $O(FFT_n)\approx nlogn/2$

图像压缩

图像的计算机表示

一幅图像，由许多各像素点构成，一副分辨率为 $m * n$ 的的图像有 $m * n$ 个像素点。每个像素点有三个值 $r e d, g r e e n, b l u e$ ，这是众所周知的三原色，三种颜色不同强度的搭配，可以形成任何颜色，每个值是一个 $1\ Byte$ 大小的值，范围从 $0$ 到 $255$ ，代表了对应颜色的强度。总而言之一幅图像是一个 $m * n * 3$ 的三维矩阵。

为什么要进行基变换

这里将问题简化为二维矩阵，即考虑某一个色彩的灰度值，其他几种颜色的压缩都是同理的，将一个像素的灰度值赋予一个1，作为标准基，所以整个图像会有 $m * n$ 个基（和矩阵空间的基一样，这里也是个矩阵，只有一个非零元）。
$\left[ \begin{matrix} 1&&&\\ &&&\\ &&&\\ &&&\\ \end{matrix} \right] \left[ \begin{matrix} &1&&\\ &&&\\ &&&\\ &&&\\ \end{matrix} \right]\cdots \left[ \begin{matrix} &&&\\ &&&\\ &&&\\ &&&1\\ \end{matrix} \right]$
为什么要进行基变换？因为如果直接抛弃标准基中某分量的信息，那么会在图像中造成黑点，这当然不是很好的有损压缩，好的有损压缩是在尽力保证图像品质的同时，缩小图像的体积。
以下为了便于分析，将矩阵基视为向量，一个 $m * n$ 维的向量。
实际中的压缩算法都是将图像矩阵分块，JPEG将图像矩阵分块为若干 $8 * 8$ 的小块。

什么样的基是合适的

计算迅速，进行基变换的速度要快
良好的压缩性，少量的基就可以接近信号

傅里叶基

傅里叶基是由离散傅里叶变换得到的，不同的基代表着不同频率的序列
,频率最低的基是 $[1\ 1\cdots 1]^T$ ，频率最高的基是 $[1\ -1\cdots\ 1\ -1]^T$ 。

在对序列进行 $D F T$ 后，丢掉一些不重要的，值很小的分量，解码再做 $I D F T$ ，恢复成标准基。此称为阈值量化。往往高频信号的系数会比较小，一般滤掉的是高频信号

小波基

$\mathbb R^8$ 空间中的小波基
$\left[ \begin{matrix} 1\\ 1\\ 1\\ 1\\ 1\\ 1\\ 1\\ 1\\ \end{matrix} \right] \left[ \begin{matrix} 1\\ 1\\ 1\\ 1\\ -1\\ -1\\ -1\\ -1\\ \end{matrix} \right] \left[ \begin{matrix} 1\\ 1\\ -1\\ -1\\ 0\\ 0\\ 0\\ 0\\ \end{matrix} \right] \left[ \begin{matrix} 0\\ 0\\ 0\\ 0\\ 1\\ 1\\ -1\\ -1\\ \end{matrix} \right] \left[ \begin{matrix} 1\\ -1\\ 0\\ 0\\ 0\\ 0\\ 0\\ 0\\ \end{matrix} \right] \left[ \begin{matrix} 0\\ 0\\ 1\\ -1\\ 0\\ 0\\ 0\\ 0\\ \end{matrix} \right] \left[ \begin{matrix} 0\\ 0\\ 0\\ 0\\ 1\\ -1\\ 0\\ 0\\ \end{matrix} \right] \left[ \begin{matrix} 0\\ 0\\ 0\\ 0\\ 0\\ 0\\ 1\\ -1\\ \end{matrix} \right]$
将某八像素图像表示成 $p=c_1w_1+c_2w_2+\cdots+c_8w_8$
$p=[w_1\ w_2\cdots w_8]c$
$p = W c$
基变换的关键在于解上述方程
$c=W^{-1}p$
求解方程其实也有和 $F F T$ 类似的快速算法称为快速小波变换
可以观察到，矩阵 $W$ 是正交矩阵，虽然不是标准正交矩阵，但是一个常数因子不影响算法思想，通过转置和少量修正可以很快得到 $W^{-1}$