漫步线性代数二十五——特征值和特征向量_常微分方程有两个特解,特征方程有两个特征值-CSDN博客

之后的文章开始介绍线性代数的后半部分。线性代数的前半部分几乎都涉及到 $Ax=b$ ，从现在起我们将通过化简矩阵(尽可能变成对角矩阵)来求解新问题 $Ax=\lambda x$ ，基本的步骤已经不是某行减去另一行的倍数：消元法会改变特征值，这不是我们需要的。

行列式是从 $Ax=b$ 到 $Ax=\lambda x$ 的过渡，对于这两种情况，行列式都给出了一个形式解：在 $x=A^{-1}b$ 中得出克莱姆法则，而对于后一种情况，得出多项式 $\det (A-\lambda I)$ ，它的根就是行列式(所有的矩阵都是方阵；长方形矩阵的特征和行列式都是没有意义的)。如果 $n=2,3$ ，那么可以用行列式求解特征值，但而与较大的 $n$ ，计算 $\lambda$ 比求解 $Ax=b$ 要难的多。

第一部是理解行列式用处有多大，他们的应用之一是求解常微分方程，我们假设读者不是微分方程的专家！只要知道 $x^n,\sin x,e^x$ 就足够了。这里给出一个例子，考虑两个方程的方程组：

d v d t = 4 v - 5 w, v = 8 a t t = 0, d w d t = 2 v - 3 w, w = 5 a t t = 0 (1)

$\begin{align} \frac{dv}{dt}=4v-5w,\quad v=8\ at\ t=0,\nonumber\\ \frac{dw}{dt}=2v-3w,\quad w=5\ at\ t=0\tag1 \end{align}$

这是一个初值问题，在时刻 $t=0$ 是给定了未知量的初始值 $8,5$ 。现在的问题是求出 $t>0$ 之后的 $v(t),w(t)$ 。

这个方程组的矩阵形式比较容易，让 $u(t)$ 表示未知量，初始值是 $u_0$ ，系数矩阵是 $A$ ：

u (t) = [v (t) w (t)], u (0) = [85], A = [42 - 5 - 3]

$u(t)=\begin{bmatrix} v(t)\\ w(t) \end{bmatrix},\quad u(0)=\begin{bmatrix} 8\\ 5 \end{bmatrix},\quad A=\begin{bmatrix} 4&-5\\ 2&-3 \end{bmatrix}$

这样的话方程组就变成我们要的向量方程：

d u d t = A u u = u (0) a t t = 0 (2)

$\begin{equation} \frac{du}{dt}=Au\qquad u=u(0)\ at \ t=0\tag2 \end{equation}$

这是该问题的基本叙述，注意它是一个一阶方程组，而且关于未知量是线性的，它的系数还是常量；矩阵 $A$ 和时间无关。

我们如何求出 $u(t)$ 呢？如果只有一个未知量，那么问题就很容易，我们得到的是一个数而不是向量方程：

d u d t = a u u = u (0) a t t = 0 (3)

$\begin{equation} \frac{du}{dt}=au\quad u=u(0)\ at\ t=0\tag3 \end{equation}$

这个方程的解读者应该知道：

u (t) = e a t u (0) (4)

$\begin{equation} u(t)=e^{at}u(0)\tag4 \end{equation}$

在初始时刻 $t=0$ ， $u$ 等于 $u(0)$ ，因为 $e^0=1$ ， $e^{at}$ 的导数有一个因子 $a$ ，使得 $du/dt=au$ ，所以满足初始条件和方程。

注意时间变大之后 $u$ 的行为。如果 $a>0$ ，那么方程是不稳定的，如果 $a=0$ ，那么是中性稳定的，如果 $a<0$ ，方程稳定，这三种情况对应于因子 $e^{at}$ 趋于无穷，保持有界和零。如果 $a$ 是一个复数， $a=\alpha+i\beta$ ，那么对于实部 $\alpha$ 使用同样的检验，虚部产生振荡 $e^{i\beta t}=\cos \beta t+i\sin \beta t$ ，衰减还是增长取决于 $e^{\alpha t}$ 。

单个方程已经见得有点多了，现在直接讨论方程组，寻找按指数方式依赖 $t$ 的解：

v (t) = e λ t y w (t) = e λ t z (5)

$\begin{align} v(t)=e^{\lambda t}y\nonumber\\ w(t)=e^{\lambda t}z\tag5 \end{align}$

或者用向量形式

u (t) = e λ t x (6)

$\begin{equation} u(t)=e^{\lambda t}x\tag6 \end{equation}$

对微分方程 $du/dt=Au$ 来说，关键点是：找出纯粹的指数解。将 $v=e^{\lambda t}y,w=e^{\lambda t}z$ 代入方程得：

λ e λ t y = 4 e λ t y - 5 e λ t z

$\lambda e^{\lambda t}y=4e^{\lambda t}y-5e^{\lambda t}z$

λ e λ t y = 2 e λ t y - 3 e λ t z

$\lambda e^{\lambda t}y=2e^{\lambda t}y-3e^{\lambda t}z$
每项都有公共因子

eλt $e^{\lambda t}$ ，可以将其消去这个消去的前提是假设两个未知量的指数

λ $\lambda$ 相等，然后得到：

4 y - 5 z = λ y 2 y - 3 z = λ z (7)

$\begin{align} 4y-5z=\lambda y\nonumber\\ 2y-3z=\lambda z\tag7 \end{align}$

这就是特征方程，用矩阵的形式表示为 $Ax=\lambda x$ ，将 $u=e^{\lambda t}x$ 代入 $du/dt=Au$ 得到 $\lambda e^{\lambda t}x=Ae^{\lambda t}x$ ，消去因子 $e^{\lambda t}$ 后得到：

A x = λ x (8)

$\begin{equation} Ax=\lambda x\tag8 \end{equation}$

现在我们得到了基本方程，它涉及到两个未知量 $\lambda,x$ 。 $\lambda$ 是矩阵 $A$ 的特征值，向量 $x$ 是关于它的特征向量，我们的目标就是求出特征值和特征向量 $\lambda,x$ 并使用它们。

$Ax=\lambda x$ 的解

注意 $Ax=\lambda x$ 是一个非线性方程，如果我们能找出 $\lambda$ ，那么对 $x$ 而言方程那就是线性的。事实上，我们能够用 $\lambda Ix$ 代替 $\lambda x$ 并移到方程左边：

(A - λ I) x = 0 (9)

$\begin{equation} (A-\lambda I)x=0\tag9 \end{equation}$

单位矩阵是为了保存矩阵和向量的记法；方程 $(A-\lambda)x=0$ 虽然简单，但是容易混淆。问题的关键点是：

向量 $x$ 在 $A-\lambda I$ 的零空间里。
我们选择的 $\lambda$ 需要使 $A-\lambda I$ 存在一个零空间。

当然每个矩阵都有一个零空间，因为向量 $x=0$ 恒满足 $Ax=\lambda x$ ，但是在求解微分方程中它是没有用的，我们的目标是建立形如指数形式 $e^{\lambda t}x$ 的解，所以只对那些非零向量 $x$ 的特殊值 $\lambda$ 感兴趣。为了存在这样的解， $A-\lambda I$ 必须包含非零向量，简而言之， $A-\lambda I$ 必须是奇异的。

为此，行列式给出了一个确切的检验方法。

1、 $\lambda$ 是 $A$ 的一个特征值，当且仅当 $A-\lambda I$ 是奇异的：

det (A - λ I) = 0 (10)

$\begin{equation} \det(A-\lambda I)=0\tag{10} \end{equation}$

这个方程是特征方程，每个 $\lambda$ 都关联一个特征向量 $x$ :

(A - λ I) x = 0 o r A x = λ x (11)

$\begin{equation} (A-\lambda I)x=0\quad or\quad Ax=\lambda x\tag{11} \end{equation}$

在我们的例子中，我们用 $\lambda I$ 对 $A$ 做变换使其变成奇异的：

$A - λ I = [4 - λ 2 - 5 - 3 - λ]$ $A-\lambda I=\begin{bmatrix} 4-\lambda&-5\\ 2&-3-\lambda \end{bmatrix}$

注意 $\lambda$ 只与对角线上的元素进行相减(因为它乘以单位矩阵 $I$ )。

$| A - λ I | = (4 - λ) (- 3 - λ) + 10 o r λ 2 - λ - 2$ $|A-\lambda I|=(4-\lambda)(-3-\lambda)+10\quad or\quad \lambda^2-\lambda-2$

这是特征多项式，令行列式等于0得到的根就是特征值，可以利用平常的二次方程求解，或者因式分解 $\lambda^2-\lambda-2=(\lambda+1)(\lambda-2)$ ，如果 $\lambda=-1$ 或者 $\lambda=2$ ，方程等于零，这个结果和二次根通式一样：

$λ = - b \pm b 2 - 4 a c - - - - - - - \sqrt 2 a = 1 \pm 9 \sqrt 2 = - 1 a n d 2$ $\lambda=\frac{-b\pm\sqrt{b^2-4ac}}{2a}=\frac{1\pm\sqrt{9}}{2}=-1\quad and\ 2$

因为二次方程有两个根，所以就有两个特征值，每个 $2\times 2$ 矩阵 $A-\lambda I$ 的行列式中都是 $\lambda^2$ (没有更高的 $\lambda$ 幂次了)。

$\lambda=-1$ 和 $\lambda=2$ 是 $Ax=\lambda x$ 或者 $(A-\lambda I)x=0$ 的解，如果矩阵是奇异的，那么在它的零空间中肯定存在非零向量 $x$ 。事实上，零空间包含特征向量的所在的整条线；它就是一个子空间！

$λ 1 = - 1 : (A - λ 1 I) x = [52 - 5 - 2] [y z] = [00]$ $\lambda_1=-1:\quad (A-\lambda_1 I)x= \begin{bmatrix} 5&-5\\ 2&-2 \end{bmatrix} \begin{bmatrix} y\\ z \end{bmatrix}= \begin{bmatrix} 0\\ 0 \end{bmatrix}$

方程的解(第一个特征值)就是 $x_1$ 的非零倍数：

$x 1 = [11]$ $x_1=\begin{bmatrix} 1\\ 1 \end{bmatrix}$

同样的可以得到 $\lambda_2$ 的计算结果：

$λ 2 = 2 : (A - λ 1 I) x = [22 - 5 - 5] [y z] = [00]$ $\lambda_2=2:\quad (A-\lambda_1 I)x= \begin{bmatrix} 2&-5\\ 2&-5 \end{bmatrix} \begin{bmatrix} y\\ z \end{bmatrix}= \begin{bmatrix} 0\\ 0 \end{bmatrix}$

第二个特征值就是 $x_2$ 的非零倍数：

$x 2 = [52]$ $x_2=\begin{bmatrix} 5\\ 2 \end{bmatrix}$
读者可能注意到 $A-\lambda_1 I$ 的列就是 $x_2$ ， $A-\lambda_2 I$ 的列就是 $x_1$ ，这是 $2\times 2$ 矩阵的特例(这个特点是很有用的)。

对于 $3\times 3$ 的情况，我经常令 $x$ 的一个元素为1，然后求解 $A-\lambda I=0$ 得到其他元素。当然如果 $x$ 是一个特征值，那么 $7x$ 也是， $-x$ 也是。所以在 $A-\lambda I$ 零空间里的向量满足 $Ax=\lambda x$ ，在我们的例子中特征空间及时通过 $x_1=(1,1),x_2=(5,2)$ 的直线。

现在回到应用上(也就是微分方程)，首先先强调一下求解 $Ax=\lambda x$ 的步骤：

计算 $A-\lambda I$ 的行列式。沿对角线减去 $\lambda$ ，行列式是一个 $n$ 阶多项式，第一项是 $(-\lambda)^n$ 。
找出多项式的根。这 $n$ 个根是 $A$ 的特征值。
对于每个特征值，求解 $(A-\lambda I)x=0$ 。因为行列式为零，所以除了 $x=0$ 外还有解，这些解就是特征向量。

在微分方程中，有一个特解 $u=e^{\lambda t}x$ ，对于 $du/dt=Au$ 来说，这些是纯指数解，注意 $e^{-t},e^{2t}$ ：

$u (t) = e λ 1 t x 1 = e - t [11] u (t) = e λ 2 t x 2 = e 2 t [52]$ $u(t)=e^{\lambda_1t}x_1=e^{-t}\begin{bmatrix} 1\\ 1 \end{bmatrix}\quad u(t)=e^{\lambda_2t}x_2=e^{2t}\begin{bmatrix} 5\\ 2 \end{bmatrix}$

这两个特解给出了完整解，他们可以用任何数 $c_1,c_2$ 相乘然后加到一起。当 $u_1,u_2$ 满足线性方程 $du/dt=Au$ 时，他们的和 $u_1+u_2$ 同样满足：

$u (t) = c 1 e λ 1 t x 1 + c 2 e λ 2 t x 2 (12)$ $\begin{equation} u(t)=c_1e^{\lambda_1t}x_1+c_2e^{\lambda_2t}x_2\tag{12} \end{equation}$

这是叠加操作，它应用到微分方程上就像应用到矩阵方程 $Ax=0$ 上一样，零空间始终那是一个子空间，解的组合依然是解。

现在我们有两个自由参数 $c_1,c_2$ ，通过初试条件 $u=u(0)$ 可以求出他们：

$c 1 x 1 + c 2 x 2 = u (0) o r [1152] [c 1 c 2] = [85] (13)$ $\begin{equation} c_1x_1+c_2x_2=u(0)\quad or\quad \begin{bmatrix} 1&5\\ 1&2 \end{bmatrix} \begin{bmatrix} c_1\\ c_2 \end{bmatrix}= \begin{bmatrix} 8\\ 5 \end{bmatrix}\tag{13} \end{equation}$

解的 $c_1=3,c_2=1$ ，原始方程的解是：

$u (t) = 3 e - t [11] + e 2 t [52] (14)$ $\begin{equation} u(t)=3e^{-t}\begin{bmatrix} 1\\ 1 \end{bmatrix} + e^{2t} \begin{bmatrix} 5\\ 2 \end{bmatrix}\tag{14} \end{equation}$

将两部分写开的：

$v (t) = 3 e - t + 5 e 2 t, w t = 3 e - t + 2 e 2 t$ $v(t)=3e^{-t}+5e^{2t},\qquad w{t}=3e^{-t}+2e^{2t}$

关键在于特征值 $\lambda$ 和特征向量 $x$ ，特征值本身非常重要，而不仅仅是求出 $u$ 的一部分技巧。大概最简单的例子就是士兵过桥了。传统上，他们停止齐步走，原因是齐步走的频率可能等于桥的某个特征值，从而可能是桥坍塌。(就像小孩子荡秋千；一旦注意到秋千的频率，通过匹配这个频率，小孩就能荡的更高)工程师总是试图让桥或火箭的频率远离风或液体燃料的频率，在另一种极端情况下，证券经纪人花费一生达到市场的自然频率，特征值几乎是任何动力系统最重要的的特征。