矩阵分析 (六) 矩阵的函数

小小何先生

已于 2024-02-24 22:21:06 修改

阅读量5.1k

点赞数 3

分类专栏：数学基础文章标签：矩阵概率论线性代数

于 2020-01-10 21:26:56 首次发布

本文链接：https://blog.csdn.net/weixin_39059031/article/details/103464628

版权

数学基础专栏收录该内容

21 篇文章 30 订阅

订阅专栏

矩阵分析系统学习笔记

本系列所有文章来自东北大学韩志涛老师的矩阵分析课程学习笔记，系列如下：
矩阵分析 (一) 线性空间和线性变换
 矩阵分析 (二) 内积空间
 矩阵分析 (三) 矩阵的标准形
 矩阵分析 (四)向量和矩阵的范数
 矩阵分析 (五) 矩阵的分解
 矩阵分析 (六) 矩阵的函数
 矩阵分析 (七) 矩阵特征值的估计
 矩阵分析 (八) 矩阵的直积

文章目录

矩阵分析系统学习笔记

矩阵的微分和积分

定义：以变量 $t$ 的函数为元素的矩阵 $A(t)=(a_{ij}(t))_{m \times n}$ 称为函数矩阵，这里 $a_{ij}(t)$ 是 $t$ 的函数。当 $a_{ij}(t)$ 都可微时，规定导数为：

$A^{'}(t)=(a_{ij}^{'}(t))_{m \times n}$

或：

$\frac{dA(t)}{dt}=(\frac{d}{dt}a_{ij}(t))_{m \times n}$

而当 $a_{ij}$ 在 $(a, b)$ 上可积时，规定 $A$ 的积分为：

$\int^{b}_{a}A(t)dt=(\int_{a}^{b}a_{ij}(t)dt)_{m \times n}$

求导法则：

设 $A (t)$ 与 $B (t)$ 是适当阶数的可微矩阵时， $\lambda(t)$ 是可微函数。

$A+B)^{'}=A^{'}+B^{'}$ ;
$(\lambda A)^{'}=\lambda^{'}A+\lambda A^{'}$
$\cdot B)^{'}=A^{'}B+A B^{'}$
当 $u = f (t)$ 关于 $t$ 可微时： $\frac{dA(u)}{dt}=\frac{dA(u)}{du}\cdot\frac{du}{dt}$ ;
当 $A^{-1}(t)$ 可微时， $A^{-1}(t))^{'}=-A^{-1}(t)A^{'}(t)A^{-1}(t)$

第五个等式的证明如下：

$0=I^{\prime}=\left(X X^{-1}\right)^{\prime}=X^{\prime} X^{-1}+X\left(X^{-1}\right)^{\prime}$

$\Rightarrow\left(X^{-1}\right)^{\prime}=-X^{-1} X^{\prime} X^{-1}$

例题8：设 $F = A X$ , $A=(a_{ij})_{m \times n}$ ， $X=(x_{1}，x_{2}，\cdots ，x_{n})^{T}$ 求 $\frac{dF}{dX^{T}}$ 。

解：
$\frac{dF}{dX^{T}}=A$

例题9：设 $f=X^{T}Y$ ， $X=(x_{1}，x_{2}，\cdots ,x_{n})^{T}，Y=(y_{1}，y_{2}，\cdots ,y_{n})^{T}$ ，求 $\frac{df}{dX}$ （ $y_{i}$ 是 $X$ 的函数）。

解：

$\frac{dF}{dX}=\frac{dX^{T}}{dX}Y+\frac{dY^{T}}{dX}\cdot X$

最小二乘解也可以通过这种方式求出，对误差的平方求导数即可得到。

矩阵序列及矩阵级数

定义：设有 $C^{n \times n}$ 的矩阵序列 ${A^{(k)}\}$ ，其中：
$A^{k}=(a_{ij}^{k})_{m \times n}$
若有：
$lim_{k \rightarrow \infty}a_{ij}^{k}=a_{ij}$
则称矩阵序列 $A^{k}$ 收敛于 $A$ , $A=(a_{ij})_{n \times n}$ 为 ${A(k)\}$ 的极限，记为：
$lim_{k \rightarrow \infty}A^{(k)}=A或A^{k} \rightarrow A$
不收敛的序列称之为发散序列。

定理6.1：设 $A^{k}$ , $\in C^{n \times n}$ ，则 $lim_{k \rightarrow \infty}A^{k}=A$ 的充要条件是：
$lim_{k \rightarrow \infty}||A^{k}-A||=0,$

其中 $||\cdot||$ 是 $C^{n \times n}$ 上的任何一个范数。

定理6.2：设：

$A^{k} \rightarrow A,B^{k} \rightarrow B,$

其中：

$A^{k},B^{k},A,B$

是适当阶段的矩阵， $a, b$ $\in$ $C$ 是常数，则：

$aA^{k}+bB^{k} \rightarrow aA+bB$
$A^{k} \cdot B^{k} \rightarrow AB$

定义6.5：设 $A\in C^{n \times n}$ ，若 $lim_{k \rightarrow \infty}A^{k}=0$ ，则称 $A$ 为收敛矩阵，这里 $A^{k}$ 是 $A$ 的 $k$ 次方。
定理6.3 ：设 $\in C^{n \times n}$ ，则 $A$ 为收敛矩阵的充要条件是 $\rho < 1$ 。

矩阵的级数

定义6.6：由 $C^{n \times n}$ 的矩阵序列 ${A^{(k)}\}$ 构成的无穷级数：
$A^{(0)}+A^{(1)}+\cdots + A^{(k)}+\cdots$

称为矩阵级数，记为 $\sum_{k=0}^{+\infty}A^{(k)}$ 。对任一正整数 $N$ ，称 $S^{N}=\sum_{k=0}^{N}A^{k}$ 为矩阵级数的部分和，如果由部分和构成的矩阵序列 ${S^{N}\}$ 收敛，且有极限，即：

$lim_{N \rightarrow \infty}S^{N}=S$

则称矩阵级数 $\sum_{k=0}^{+\infty}A^{k}$ 收敛，而且有和 $S$ ，记为：

$S=\sum_{k=0}^{+\infty} A^{k}$

定义6.7：设 $A^{(k)}=(a_{ij}^{k})_{n \times n}$ ，如果 $n^{2}$ 个数量级数：

$\sum_{k=0}^{+ \infty}a_{ij}^{k}$

都绝对收敛，即：

$\sum_{k=0}^{+ \infty}|a_{ij}^{k}|$

收敛，则称级数 $\sum_{k=0}^{+ \infty}A^{k}$ 绝对收敛。

定理6.4：设 $A^{k}=(a_{ij}^{(k)})_{n \times n}$ ，则矩阵级数 $\sum_{k=0}^{+ \infty}A^{k}$ 绝对收敛的充要条件是 $\sum_{k=0}^{+ \infty}||A^{k}||$ 收敛，其中 $||\cdot||$ 是 $C^{n \times n}$ 上的任一矩阵范数。

矩阵的幂级数

定义6.8：设 $\in C^{n \times n}$ , $a_{k} \in C(k=0,1,2,\cdots)$ ,称矩阵级数：

$\sum_{k=0}^{+\infty}a_{k}A^{k}$

为矩阵 $A$ 的幂级数。

利用定义来判断矩阵幂级数的敛散性，需要判别 $n^{2}$ 个数项级数的敛散性，当矩阵的阶数较大时，这很不方便，且在许多情况下也不必要。矩阵幂级数是复变量 $z$ 的幂级数的推广，如果 $\sum_{k=0}^{\infty}a_{k}z^{k}$ 的收敛半径为 $R$ ,则对于收敛圆 $∣ z ∣ < R$ 内的所有 $z$ ，都是绝对收敛，因此，讨论级数的收敛性问题，自然联系到 $\sum_{k=0}^{\infty}a_{k}z^{k}$ 的收敛半径，关于矩阵幂级数有下面的结论：

定理6.5：设 $\sum_{k=0}^{\infty}a_{k}z^{k}$ 的收敛半径为 $R$ ， $\in C^{n \times n}$ ，则：

当 $\rho(A)< R$ 时， $\sum_{k=0}^{\infty}a_{k}z^{k}$ 绝对收敛；
当 $\rho(A)> R$ 时， $\sum_{k=0}^{\infty}a_{k}z^{k}$ 发散。

矩阵函数

矩阵函数定义：

这里利用方阵的幂级数来定义矩阵函数：

在复变函数中，一些函数可以表达成无穷级数的和，即函数可以展开：

$e^{Z}=\sum_{n=0}^{+\infty}\frac{z^{n}}{n!}$

利用这种展开可以定义矩阵函数：

$e^{A}=\sum_{n=0}^{+\infty}\frac{A^{n}}{n!}$

称之为矩阵 $A$ 的指数函数，而相应的幂级数的收敛半径为无穷大，所以对任何矩阵都收敛。

计算矩阵函数：

这里介绍计算矩阵函数的最小多项式的方法：

若 $f(\lambda)$ 是多项式， $m(\lambda)$ 是 $A$ 的最小多项式，它的次数为 $m$ ，以 $m(\lambda)$ 去除 $f(\lambda)$ 得：

$f(\lambda)=m(\lambda)q(\lambda)+r(\lambda)$

这里 $r(\lambda)=0$ 或者比 $m(\lambda)$ 的次数更低，因此：

$f (A) = m (A) q (A) + r (A) = r (A)$

由此可见，次数高于 $m$ 次的任一多项式 $f (A)$ 都可以化为次数 $\leq m-1$ 的 $A$ 的多项式 $r (A)$ 来计算，这一思想可以推广到由矩阵幂级数确定的矩阵函数 $f (A)$ 上，有如下定理：

定理6.6：设 $n$ 阶矩阵 $A$ 的最小多项式为 $m$ 次多项式：

$m(\lambda)=(\lambda-\lambda_{1})^{n_{1}}(\lambda-\lambda_{2})^{n_{2}}\cdots(\lambda-\lambda_{s})^{n_{s}}$

其中， $\lambda_{1},\lambda_{2},\cdots,\lambda_{s}$ 是 $A$ 的所有不同的特征值，与 $f(z)=\sum_{k=0}^{+\infty}C_{k}z^{k}$ 相应的 $f(A)=\sum_{k=0}^{\infty}C_{k}A^{k}$ 是 $A$ 的幂级数，则：

$f(A)=a_{0}E+a_{1}A+\cdots +a_{m-1}A^{m-1}$

系数 $a_{0},a_{1},\cdots,a_{m-1}$ 满足下列方程组：

$a_{0}+a_{i}\lambda_{i}+\cdots +a_{m-1}\lambda_{i}^{m-1}=f(\lambda_{i})$

$a_{1}+2a_{2}\lambda_{i}+\cdots+(m-1)a_{m-1}\lambda_{i}^{m-2}=f^{'}(\lambda_{i})$

$(n_{i}-1)a_{n_{i-1}}+\cdots+(m-1)\cdots(m-n_{i}+1)a_{m-1}\lambda_{i}^{m-n_{i}+1}=f^{(n_{i}-1)}(\lambda_{i})$

即：

$f(\lambda)=a_{0}+a_{1}\lambda+\cdots+a_{m-1}\lambda^{m-1}$

求 $n_{i}-1$ 次导数，得到 $n_{i}$ 个子式，在这些式子中把 $\lambda_{i}$ 代入。事实上，设：

$f(\lambda)=m(\lambda)q(\lambda)+r(\lambda)$

两边求导

$f^{'}(\lambda)=m^{'}(\lambda)q(\lambda)+m(\lambda)q^{'}(\lambda)+r^{'}(\lambda)$

而 $m(\lambda)$ ， $m^{'}(\lambda)$ 当 $\lambda=\lambda_{i}$ 时为零，因为 $m(\lambda)$ 中有 $(\lambda-\lambda_{i})^{n_{i}}$ ,所以可以求 $n_{i}-1$ 次导数，代入时只有 $r^{n_{i}-1}(\lambda_{i})$ 不是零。

例16：设

$A=\left(\begin{array}{ccc} {2} & {1} & {4} \\ {0} & {2} & {0} \\ {0} & {3} & {1} \end{array}\right)$

解：

$f(\lambda)=(\lambda-1)(\lambda-2)^{2}$

而 $(\lambda-1)(\lambda-2)$ 不是零化多项式，所以最小多项式是：

$m(\lambda)=f(\lambda)$

设：

$e^{At}=a_{0}E+a_{1}A+a_{2}A^{2}$

由

$e^{\lambda t}=a_{0}+a_{1}\lambda+a_{2}\lambda^{2}$

两边求导：

$te^{\lambda t}=a_{1}+2a_{2}\lambda$

再带入特征值得

$\begin{aligned} &\mathrm{e}^{t}=a_{0}+a_{1}+a_{2}\\ &\mathrm{e}^{2 t}=a_{0}+2 a_{1}+4 a_{2}\\ &t e^{2 t}=a_{1}+4 a_{2} \end{aligned}$

解出：

$\begin{aligned} &a_{0}=4 \mathrm{e}^{t}-3 \mathrm{e}^{2 t}+2 t \mathrm{e}^{2 t}\\ &a_{1}=-4 \mathrm{e}^{4}+4 \mathrm{e}^{2 t}-3 t \mathrm{e}^{2 t}\\ &a_{2}=\mathrm{e}^{t}-\mathrm{e}^{2 t}+t \mathrm{e}^{2 t} \end{aligned}$

代入得：

$\mathrm{e}^{A t}=\mathrm{e}^{2 t}\left(\begin{array}{ccc} {1} & {12 \mathrm{e}^{-t}-12+13 t} & {-4 \mathrm{e}^{-t}+4} \\ {0} & {1} & {0} \\ {0} & {-3 \mathrm{e}^{-t}+3} & {\mathrm{e}^{-t}} \end{array}\right)$

矩阵函数的性质

这里讨论一下矩阵函数的一些性质：

$s in (- A) = - s in (A)$ ， $cos (- A) = cos (A)$
设 $\in C^{n\times n}$ ，当 $A B = B A$ 时， $e^{A+B}=e^{A} \cdot B^{B}=e^{B} \cdot B^{A}$ 。
由欧拉公式容易得到：

$e^{iA}=cos(A)+isin(A)$

$cos(A)=\frac{1}{2}(e^{iA}+e^{-iA})$

$sin(A)=\frac{1}{2i}(e^{iA}-e^{-iA})$

利用上面的公式容易得到，当 $A B = B A$ 时：

$s in (A + B) = s in (A) cos (B) + cos (A) s in (B)$

$cos (A + B) = cos (A) cos (B) - s in (A) s in (B)$

矩阵函数在微分方程组中的应用

考虑一阶常系数非齐次方程组：

$\left\{\begin{array}{l} {\frac{\mathrm{d} X}{\mathrm{d} t}=A X+F(t)} \\ {\left.X\right|_{t=t_{0}}=X\left(t_{0}\right)} \end{array}\right.$

其解为：

$X(t)=e^{A\left(t-t_{0}\right)} X\left(t_{0}\right)+\int_{t_{0}}^{t} e^{A(t-\tau)} F(\tau) d \tau$

线性系统的能控性与能观性

能控性概念理解：

考虑一阶常系数非齐次方程组：

$\left\{\begin{array}{l} {\frac{\mathrm{d} X}{\mathrm{d} t}=A X+F(t)} \\ {\left.X\right|_{t=t_{0}}=X\left(t_{0}\right)} \end{array}\right.$

其解为：

$X(t)=e^{A\left(t-t_{0}\right)} X\left(t_{0}\right)+\int_{t_{0}}^{t} e^{A(t-\tau)} F(\tau) d \tau$

如果能够通过输入控制输出，也就是控制 $F (t)$ ，使其最后的解能够可控，我们称这个系统是能控的。

定义6.9：对于一个线性定常系统，若在某个有限时间 $0,t_{1}]$ 内存在输入 $\mu(t)$ , $\leq t \leq t_{1})$ 能够使系统从任意初始状态 $X(0)=X_{0}$ 转移到 $X_{t_{1}}=0$ ，则称此状态是能控的；若系统的所有状态时能控的，则称此系统是完全能控的。

由前面知道系统的解为：

$X(t_{1})=e^{At_{1}} X\left(0\right)+\int_{0}^{t_{1}} e^{A(t_{1}-\tau)} Bu(\tau) d \tau$

想要：

$X(t_{1})=0$

得：

$e^{At_{1}} X(0)+\int_{t_{0}}^{t_{1}} e^{At_{1}} \cdot e^{-A\tau}B(\tau) d \tau=0$

约去 $e^{At_{1}}$ 得：

$X(0)+\int_{t_{0}}^{t_{1}} e^{-A\tau}B(\tau) d \tau=0$

可见，只要取恰当的 $u$ 使得上式等于0即可：

通过观察，可取：

$u(t)=-B^{\mathrm{T}} \mathrm{e}^{-A^{\mathrm{T}} t}\left(\int_{0}^{t_{1}} \mathrm{e}^{-A \tau} B B^{\mathrm{T}} \mathrm{e}^{-A^{\mathrm{T}} \tau} \mathrm{d} \tau\right)^{-1} X(0)$