【线性代数及其应用】02 -矩阵代数

最新推荐文章于 2023-12-17 19:57:36 发布

Ciaran-byte

最新推荐文章于 2023-12-17 19:57:36 发布

阅读量5k

点赞数 1

分类专栏：数学基础文章标签：线性代数

本文链接：https://blog.csdn.net/qq_41741344/article/details/107675831

版权

数学基础专栏收录该内容

46 篇文章 75 订阅

订阅专栏

矩阵代数

文章目录

矩阵代数

1. 矩阵与向量

1.1 矩阵乘以向量的求法

矩阵与向量的乘法包含两种，分别是矩阵与行向量的乘法，以及矩阵与列向量的乘法

矩阵与列向量的乘法
$A*\left\{ \begin{matrix} c1\\ c2\\ c3 \end{matrix}\right\}$

把A竖着看，当初列向量的组合
$\left\{ \begin{matrix} v1& v2& v3 \end{matrix}\right\}$
则可以得到
$\left\{ \begin{matrix} v1& v2& v3 \end{matrix}\right\}*\left\{ \begin{matrix} c1\\ c2\\ c3 \end{matrix}\right\} = c1*v1+c2*v2+c3*v3$

矩阵与行向量的乘法

矩阵行向量要写在矩阵左侧
$\left\{ \begin{matrix} c1& c2& c3 \end{matrix}\right\}*A$
把A横着看，当初行向量的组合
$\left\{ \begin{matrix} v1^T \\ v2^T \\ v3^T \end{matrix}\right\}$
则可以得到
$\left\{ \begin{matrix} c1& c2& c3 \end{matrix}\right\}*\left\{ \begin{matrix} v1^T \\ v2t^T \\ v3^T \end{matrix}\right\} = c1*v1^T+c2*v2^T+c3*v3^T$

1.2 矩阵乘以列向量的意义

矩阵乘以列向量实际上就是把矩阵A看着是列向量的组合，通过列向量作为权值，让矩阵的列向量重新线性组合得到一个新的列向量

1.3 行向量乘以矩阵的意义

行向量乘以矩阵，实际上就是把矩阵A看着是行向量的组合，通过行向量作为权值，让矩阵的行向量重新线性组合，得到一个新的行向量

2. 矩阵乘法的求法(也就是含义)

矩阵乘法A*B有5种理解方法，可以根据需要进行

2.1 前行乘后列

前行乘后列是矩阵乘法的标准做法，如
$A*B=\left\{ \begin{matrix} a11 &a12\\ a21& a22 \end{matrix}\right\}*\left\{ \begin{matrix} b11 &b12\\ b21& b22 \end{matrix}\right\}=\left\{ \begin{matrix} a11*b11+a12*b21 &a11*b12+a12*b22\\ a21*b11+a22*b21&a21*b12+a22*b22 \end{matrix}\right\}$
也就是新矩阵xij的位置，是前面矩阵的第i行，和后面矩阵第j列点乘的结果

2.2 行乘行

当然，矩阵乘法也可以理解为是很多行的乘法，前矩阵A可以看做是很多个行向量，然后就有了行向量*矩阵B的解释法。每一个前矩阵B中的行向量都对矩阵A中的行向量进行了一次重新组合，得到了一个新行向量
$\left\{ \begin{matrix} v1^T\\ v2^T \end{matrix}\right\}*\left\{ \begin{matrix} b11 &b12\\ b21& b22 \end{matrix}\right\} = \left\{ \begin{matrix} W1^T\\ W2^T \end{matrix}\right\}$

$v1^T = \left\{ \begin{matrix} a11& a12 \end{matrix}\right\}$

$v2^T= \left\{ \begin{matrix} a21& a22 \end{matrix}\right\}$

可得
$W1^T = a11*\left\{ \begin{matrix} b11& b12 \end{matrix}\right\} +a12*\left\{ \begin{matrix} b21& b22 \end{matrix}\right\}$

$W2^T = a21*\left\{ \begin{matrix} b11& b12 \end{matrix}\right\} +a22*\left\{ \begin{matrix} b21& b22 \end{matrix}\right\}$

2.3 列乘列

后矩阵B也可以看做很多列向量的组合，于是就变成的矩阵乘以列向量
$\left\{ \begin{matrix} a11 &a12\\ a21& a22 \end{matrix}\right\}*\left\{ \begin{matrix} V1&V2 \end{matrix}\right\} = \left\{ \begin{matrix} W1& W2 \end{matrix}\right\}$

$\left\{ \begin{matrix} b11\\ b12 \end{matrix}\right\}$

$\left\{ \begin{matrix} b21\\b22\end{matrix}\right\}$

可得

$b11*\left\{ \begin{matrix} a11\\ a21 \end{matrix}\right\} +b12*\left\{ \begin{matrix} a12\\ a22 \end{matrix}\right\}$

$b21*\left\{ \begin{matrix} a11\\ a21 \end{matrix}\right\} +b22*\left\{ \begin{matrix} a12\\ a22 \end{matrix}\right\}$

2.4 前列乘后行

前列乘后行可以得到一个个秩1矩阵，矩阵乘法可以看做是子矩阵的叠加
$A*B = column_{a1}*row_{b1}+column_{a2}*row_{b1}+column_{a1}*row_{b2}+column_{a2}*row_{b2}$

2.5 分块乘法

矩阵乘法也可以看做分块矩阵的乘法
$\left\{ \begin{matrix} A1 &A2\\ A3& A4 \end{matrix}\right\}*\left\{ \begin{matrix} B1&B2\\B3&B4 \end{matrix}\right\} = \left\{ \begin{matrix} W1& W2\\W3&W4 \end{matrix}\right\}$

3.矩阵的分解

3.1 LU分解

3.1.1 含义

矩阵的LU分解是最简单的一种，将矩阵A分解为下三角矩阵与上三角矩阵的成绩。其中L为下三角矩阵，对角线全部为1，U为上三角矩阵，其实也就是矩阵的阶梯式。LU分解代表了矩阵化为阶梯式的过程中发生的变化，L就是每一步变化的矩阵乘积。

3.1.2 求解步骤

假设E21的意思为把矩阵A的第2行第1个元素消去变成0，假设A是个3x3的矩阵，那么，行变换为阶梯式的过程就应该是 E21,E31,E32，最后得到了U
$E 32 * E 31 * E 21 * A = U$

$A = ( E32*E31*E21)^{-1}*U$

$A = L * U$

$即 L = ( E32*E31*E21)^{-1}$

这种求解步骤是矩阵没有发生行交换的情况，如果发生了行交换，矩阵的LU分解应该为

$A = P * L * U$

$P 为置换矩阵$

3.1.2 LU分解的应用–加速线性方程组的求解

因为从原始矩阵变换为最简阶梯形经过了很多次行变换，行变换可以用一个矩阵来描述，最终得到的最简阶梯形是一个下三角矩阵，记为U，而多次行变换的乘积是一个上三角矩阵，记为L，即A=LU，原式可以表示为
$L * U * X = b$
令y=UX
$L * y = b$
因为L是下三角矩阵，解方程必然很快，得到y以后，再算Ux=y，U是上三角矩阵，计算也很快，用这种先拆分再解方程的LU分解法比最简阶梯形计算量更小一些

3.2 QR分解

3.2.1 含义

QR分解是在施密特正交化，产生正交矩阵Q的过程中产生的，A=QR实际上就是A中的列向量作为向量空间的基，通过施密特正交化得到了标准正交基Q，R记录了这个变化的过程，R是一个上三角矩阵。

因为A中的基xi，都是由Q中的前i个单位正交基组合得到的，所以R必定是个上三角矩阵，比如

$r 1 = x 1;$

$\frac{r_1^T*x2}{r_1^T*r_1}*r_1$

$即 x 2 = c 1 * r 1 + c 2 * r 2$
其余的可以类推，所以矩阵R一定是个上三角矩阵

3.2.2 分解条件

因为只有A的各个向量能够构成向量空间的一组基向量才能进行施密特正交化，所以，能够做QR分解的条件是，A的列向量必须是线性无关的

3.2.3 分解方法

首先，Q是施密特正交化得到的标准正交基，这里就不写求解过程了，只写R的求法
$A = Q * R$

$R = Q^{-1}*A$

$因为 Q 是标准正交矩阵，所以有逆等于转置，可得$

$R = Q^T*A$

3.2.4 QR分解的用途

3.2.4.1 拆分标准正交基

3.2.4.2 提高最小二乘解的精度

$A X = b$

$A^T*A*X = A^T*b$

$X=(A^T*A)^{-1}*A^T*b$

$X=(R^T*Q^T*Q*R)^{-1}*R^T*Q^T*b$

$X = R^{-1}*Q^T*b$

$可得 RX = Q^T*b$
因为R是一个上三角矩阵，乘以X可以得到一个方便求解的线性方程，而右边没有了求逆矩阵的过程，求逆矩阵的过程中，如果有小数发生约简，会引入误差，而不计算矩阵的逆，既能够提高运算速度，也能够提高运算精度。

3.3 对角分解

3.3.1 含义

对角分解是基于特征值和特征向量的矩阵分解
我们知道，特征值具有这样的性质
$A*v_1 = λ_1*v1$
v1是矩阵A的特征向量，λ1是矩阵A的特征值。如果有矩阵S是矩阵A的特征向量的合集
$A*\left\{\begin{matrix}v1& ...&vn \end{matrix}\right\} =\left\{\begin{matrix}λ1*v1& ...&λn*vn \end{matrix}\right\}=S*λ$

$\left\{\begin{matrix}λ1& ...&0\\...&λr&...\\0&...&λn \end{matrix}\right\}$

可得
$A = S^{-1}*λ*S$

3.3.2 分解条件

可以看出来，只有A有n个线性无关的特征向量的时候，才能对角化，如果有n个不同的特征值，必定有n个线性无关的特征向量，但是没有n个不同的特征值，不一定不能进行对角化分解

3.3.3 分解方法

分解方法就是，只要能够求得特征值和特征向量即可构造矩阵S和λ
先求特征值
$A * v = λ * v$

$（ A - λ * I ） * v = 0$

$求 d e t ∣ A - λ * I ∣ = 0 即可解得特征值$
再求特征向量

$求得的特征值代入（ A - λ * I ） * v = 0$
求解其零空间即可获得特征向量。如果λ是重根，就看看重根能否在零空间内得到足够的特征向量，否则不能对角化

有了特征值和特征向量即可实现对角化

3.3.4 对角分解的应用

对焦化应用在特征值部分详述，这里概况说明一下

求A的幂次
求差分方程
求马尔科夫矩阵
求系统稳态问题
微分方程的解耦与求解
相似矩阵

3.4 谱分解

3.4.1 含义

谱分解又叫做对称矩阵的对角化，也就是说，必须是能进行对角化的对称矩阵，才能进行谱分解。
$根据对角化 A = S*λ*S^{-1}$
因为A是对称矩阵，有A=A^T

$A^T = (S^{-1})^T*λ^T*S^T=S*λ*S^{-1}$
所以有S^-1=S^T
可知S必定是一个标准正交阵，原对角分解可化为
$A = Q*∑*Q^T$

3.4.2 分解条件

谱分解的条件是矩阵A必须是能进行对角化的对称矩阵

3.4.3 分解方法

分解方法与对角化是一样的，都是先求特征值，再求特征向量，最后求得矩阵Q和∑。因为Q是标准正交阵，最后不需要求逆，只要转置就好，计算量更加的小

3.4.4 谱分解的其他意义

如果把谱分解式子乘开，可得
$A = λ1*v1*v1^T+....+λn*vn*vn^T$
因为vi都是标准正交基，所以A可以看做是vi的投影矩阵的线性组合

3.4.4 谱分解的应用

谱分解的主要应用在坐标变换上，能够把二次型曲线通过谱分解变换到标准位置，比如椭圆，可以把长轴和短轴变换到坐标轴上来，能够使得计算更加方便。在二次型中，得到的特征向量方向就是二次型的极值存在的方向，比如椭圆的长轴和短轴方向。而特征值标准二次型的极值，比如椭圆的长轴和短轴大小。

下面介绍如何通过谱分解，把二次型变换到标准位置。假设二次型为X^T*A*X

首先通过变量代换，令Y = p*X，p是标准正交基矩阵，也就是A的特征向量矩阵，X = p^T*Y可得

$X^T*A*X = Y^T*P*A*P^T*Y = Y^T*∑*Y$
我们看出，通过谱分解代换，可以将原来的二次型变换成了一个没有交叉相乘项的二次型，也就是特征值矩阵。

3.5 奇异值分解

3.5.1 奇异值分解的含义

奇异值分解来源于如下的向量变换，将行空间向量v变换为列空间向量u，其中σ叫做奇异值
$A * V = σ * u$
矩阵形式为
$A = U*∑*V^T$
奇异值分解实际上就是将矩阵A分解为两个正交矩阵U、V和一个对角阵∑的过程。如果A是mxn的，那么U是mxm的，∑是mxn的，V是nxn的

3.5.2 奇异值分解的条件

任何矩阵都可以做奇异值分解

3.5.3 奇异值分解的方法

3.5.3.1 法1

第一种方法是分别求A^T*A和A*A^T的特征向量，因为
$A^T*A = V*(∑)^2*V^T$

$A*A^T = U*(∑)^2*U^T$
同时可知A的奇异值就是A^T*A的特征值开根号

3.5.3.2 法2

第二种方法是利用定义求U
$A^T*A = V*(∑)^2*V^T$
上式可以求得特征向量v和奇异值σ
$A * v = σ * u$

$\frac{A*V}{||σ||}$

3.5.4 长方形矩阵的奇异值分解

3.5.4.1 m>n型

m>n型的矩阵是细长的，因为左奇异矩阵U必须是m*m的，但是特征值至多有n个，其余不足的应该利用正交性质 u1*u2 = 0，也就是解u^T*x=0,从左零空间里面获得基向量，同时注意应该做施密特正交化得到标准正交向量

3.5.4.2 n>n型

n>m型矩阵是矮胖的，因为右奇异矩阵V必须是n*n的，而特征值至多有m个，不足以获得足够的v向量，其余的应该利用正交特征，利用 A*X = 0，从零空间里面补充基向量，同时也应该做施密特正交化变成标准正交矩阵

3.5.5 奇异值分解深度剖析

这里来分析一下v向量和u向量的组成成分
$A * v = u$
通过上式，我们知道，A的重新线性组合必然也还在其列空间内，所以，向量u应该属于A的列空间，而其余一部分u必须与u1等向量正交，与列空间正交的向量位于左零空间中，所以左奇异矩阵的向量来源为列空间和左零空间，正好列空间与左零空间基向量的和为m

$A*v_{r+1}=0$
因为并不是所有的奇异值都是非零值，当大于标号r以后的奇异值都是零值。所以，我们得到了上面的式子，可以说明，向量v的一部分成分为A的零空间。而另外一部分v与向量vr+1等正交，零空间的正交向量位于行空间中，所以v实际上来源为零空间和行空间的基向量，正好零空间和行空间的基向量和为n

3.5.6 奇异值分解的应用

3.5.6.1 误差估算

如果最大的奇异值和最小的奇异值差距过大，那么有微小误差引入会使得系统有较大的误差

3.5.6.2 分解得四个子空间的基向量

3.5.6.3 估计A的秩

A的秩基本上就是非零奇异值的个数

4. 矩阵的逆

4.1 什么是矩阵的逆

因为矩阵相当于一种线性变换，利用矩阵A可以把向量v变成另外一种状态，但是我们也希望能够从v的另外一种状态还原回来，这个时候就有了逆矩阵。逆矩阵是用于抵消原来影响而产生的，具有特性
$A^{-1}*A = I$

$A*A^{-1} = I$

4.2 为什么会有不可逆

不可逆的矩阵其秩一定为0，也就是列向量之间线性相关。假设某个2x2的矩阵A，则两个列向量必然是倍数关系，对呈倍数关系的向量不论怎么组合，最终得到的还是倍数关系，不可能得到单位向量I，也就说，不存在某种线性变换让A矩阵变成I，那么自然不存在A^-1，也有了不可逆矩阵A

4.3 逆矩阵的求解方法

4.3.1 矩阵解法

方程式解法

设矩阵A*B = I，假设B的列向量为v1,…,vn，那么就有
$A*v1 = [1....0]^T$

$A*v2 = [0 1...0]^T$
即构成了方程式解法，太复杂，不推荐

高斯-若尔当消元法(首选)

$P*\left\{ \begin{matrix} A&I \end{matrix}\right\}=\left\{ \begin{matrix} I&P' \end{matrix}\right\}$

$则必有 P*A=I和P' = A^{-1}$

逆矩阵乘法公式
$A*B)^{-1} = B^{-1}*A^{-1}$

$(λA)^{-1} = \frac{A^{-1}}{λ}$

4.3.2 行列式解法-余子式法

$A^{-1} = \frac{C^T}{det{A}}$

c是余子式

4.3.3 微积分解法-泰勒展开

$I-At)^{-1}= I + At+....+(At)^n$
其中t是A的特征向量，如果特征值小于1，该值收敛，结果约等于I+At

4.4 左逆右逆和伪逆

4.4.1 左逆

$A^T*A)^{-1}*A^T)*A = I$
所以(A^T*A)^-1*A^T是A的左逆,适用于r=m且m< n的情况

4.4.2 右逆

$A*(A^T*(A*A^T)^{-1})=I$
所以A的右逆是A^T*(A*A^T)^-1，适用于r = n且 n< m的情况

4.4.3 伪逆

如果r同时小于m和n，就出现了伪逆，伪逆是抛弃了零空间和左零空间之间的转换，仅仅保留了行空间和列空间之间的变换，将向量从列空间变换会行空间而产生的，一般与奇异值分解有关系

$\left\{ \begin{matrix} U_r&U_{m-r} \end{matrix}\right\}*\left\{ \begin{matrix} D&0\\0&0 \end{matrix}\right\}*\left\{ \begin{matrix} V^T_r\\V^T_{n-r} \end{matrix}\right\}$
如果仅仅保留非零的奇异值