矩阵论（六）：矩阵的条件数

最新推荐文章于 2025-02-28 12:26:47 发布

exp(i)

最新推荐文章于 2025-02-28 12:26:47 发布

阅读量5.1w

点赞数 90

分类专栏：机器学习的数学基础文章标签：矩阵论数值计算条件数

本文链接：https://blog.csdn.net/niu_123ming/article/details/84493102

版权

机器学习的数学基础专栏收录该内容

14 篇文章

订阅专栏

矩阵论专栏：专栏（文章按照顺序排序）

参考资料：
线性代数基础知识系列：1、2、3、4、5
矩阵分解—从Schur分解、特征值分解EVD到奇异值分解SVD（下）
矩阵的正定性

矩阵的条件数用于界定一个矩阵是“良态的”还是“病态的”，一般来说，条件数越大，矩阵越接近一个奇异矩阵（不可逆矩阵），矩阵越“病态”。在数值计算中，矩阵的条件数越大，计算的误差越大，精度越低。例如下面解线性方程组的例子：
在这里插入图片描述
矩阵A的条件数很大：

如果A受到很小的扰动，变成如下的矩阵B，可以发现方程的解的变化非常大：

如果我们采集的数据有稍微一点点的偏差，就像上面的例子，我们得到的结果就会相差很多，这不是我们希望看到的。所以，衡量一个矩阵的病态程度是很有必要的。
下面先从矩阵范数入手，在此基础上再去了解条件数：

矩阵的范数
- 范数公理
- Frobenius范数
  - Frobenius范数与特征值和奇异值的关系
  - 特征值与奇异值之间的关系总结
- 诱导范数/算子范数
  - $1,2,\infty$ 范数的具体表达式
矩阵的条件数及求法
- 条件数的定义与性质
- 条件数的计算
条件数在误差估计方面的应用
- 线性方程组的误差估计
- 矩阵求逆的误差估计
- 思考：什么时候 $c o n d (A)$ 最小？

【说明】设 $F$ 为一数域。本文 $F^{n\times 1}$ 与 $F^n$ 不作区分，即默认把 $F^n$ 中的向量视作列向量。在 $F^n$ 上定义的 $l_p$ 范数在 $F^{n\times 1}$ 上也适用。文中 $R$ 表示实数域， $C$ 表示复数域。 $F^{m\times n}_r$ 表示数域 $F$ 上全体秩为 $r$ 的 $m\times n$ 矩阵的集合。

矩阵的范数

范数公理

定义1：矩阵 $A\in{F^{m\times{n}}}$ 的范数 $∣ ∣ A ∣ ∣$ 必须是实值函数且满足如下性质：
- $\forall{A}\neq{O},||A||\gt{0};||O||=0$ （非负性/正定性）
- $\forall{c}\in{F},||cA||=|c|||A||$ （齐次性）
- $||A+B||\leqslant{}||A||+||B||$ （三角不等式）
- $||AB||\leqslant{}||A||||B||$ （矩阵乘法的相容性）
定理1（矩阵范数的性质）：
（1） $||I||\geqslant 1$
证明：由 $||I||\leqslant||I||||I||$ （矩阵乘法的相容性）且 $∣ ∣ I ∣ ∣ > 0$ 即证。
【注】需要注意的是， $∣ ∣ I ∣ ∣ = 1$ 是不一定成立的。例如 $||I||_F=\sqrt{n}$ （Frobenius范数，见后文），其中 $n$ 是单位矩阵 $I$ 的阶数。但是，单位矩阵的算子范数（诱导范数）总是1，证明见后文。
（2）设 $A\in C^{n\times n}$ ，任取A的一个特征值 $\lambda$ ，则有 $|\lambda|\leqslant ||A||$
证明：参照（3）的证明的前半部分。
【注】根据谱半径的定义，可得 $\rho(A)\leqslant ||A||$ 。
（3）设 $A\in C^{n\times n}_n$ ，则对A的任一特征值 $\lambda$ 有 $||A^{-1}||^{-1}\leqslant |\lambda| \leqslant||A||$
证明：设 $Ax=\lambda x,x\neq 0$ ，则 $|\lambda|||x||=||Ax||\leqslant||A||||x||$ 且 $∣ ∣ x ∣ ∣ > 0$ ，故 $|\lambda|<||A||$ 。用 $A^{-1}$ 左乘 $Ax=\lambda x$ 得到 $\lambda A^{-1}x=x$ ，故 $||x||=||\lambda A^{-1}x||\leqslant |\lambda|||A^{-1}||||x||$ ，又 $∣ ∣ x ∣ ∣ > 0$ 故 $|\lambda|||A^{-1}||\geqslant 1$ ，即 $||A^{-1}||^{-1}\leqslant |\lambda|$ 。综上得证。

常用范数

Frobenius范数
和向量的Frobenius范数（L2范数、欧几里得范数）类似，矩阵的Frobenius范数也是把每一个元素的模的平方加起来再开根号：
- 定义2：矩阵的Frobenius范数定义为 $||A||_F=\sqrt{tr(A^HA)}=\sqrt{\sum_{i,j}|a_{ij}|^2}$ ，其中 $a_{ij}$ 是A的第i行,第j列元素
  Frobenius范数是满足上面四条范数公理的，证明稍微有些繁琐，这里就不写了。
  由Frobenius范数很容易得到酋矩阵的一个性质：
  - 定理2：设U是n阶酋矩阵，则U的任意特征值的模长为1
    证明：
    设 $Ux=\lambda x,x\neq 0$ ，则 $||Ux||_F=|\lambda|||x||_F$ ，因为 $||Ux||_F=\sqrt{tr(x^HU^HUx)}=\sqrt{tr(x^Hx)}=||x||_F$ ，且 $x||_F>0$ ，所以 $|\lambda|=1$ 。
    这个定理在前面的博客链接中证明过，方法和这里本质上是一回事。
- Frobenius范数与特征值的关系
  - 定理3（Schur不等式）：设 $A\in C^{n\times n}$ ， $A$ 的特征值为 $\lambda_1,\lambda_2,...,\lambda_n$ ，则 $||A||_F\geqslant \sqrt{\sum_i |\lambda_i|^2}$ ，且取等号的充要条件为 $A$ 是正规矩阵
    证明：
    设 $A$ 的一个Schur分解为 $A=UTU^H$ ，其中 $U$ 是酋阵， $T=(t_{ij})_{n\times n}$ 是上三角阵。则 $||A||_F=\sqrt{tr(A^HA)}=\sqrt{tr(UT^HU^HUTU^H)}=\sqrt{tr(UT^HTU^H)}=\sqrt{tr(U^HUT^HT)}=\sqrt{tr(T^HT)}=||T||_F$ ，注意 $T$ 的主对角元是 $\lambda_1,\lambda_2,...,\lambda_n$ ，所以 $||A||_F=||T||_F=\sqrt{\sum_{i,j}|t_{ij}|^2}\geqslant \sqrt{\sum_i |\lambda_i|^2}$ 。接下来考虑取等号的条件。显然取等号的充要条件是 $\sqrt{\sum_{i,j}|t_{ij}|^2}=\sqrt{\sum_i |\lambda_i|^2}$ ，即 $T$ 除主对角线外元素均为零，即 $T$ 是一对角阵，即 $A$ 酋相似于一对角阵，即 $A$ 是一正规矩阵。
- Frobenius范数与奇异值的关系
  - 定理4：设 $A\in C^{m\times n}$ ， $\sigma_1,\sigma_2,\cdots,\sigma_k$ 是 $A$ 的非零奇异值（重奇异值按重数算），则 $||A||_F=\sqrt{\sum_i \sigma_i^2}$
    证明：
    设 $A^HA$ 的一个谱分解为 $A^HA=U\Sigma U^H=U\Sigma U^{-1}$ 。
    $||A||_F=\sqrt{tr(A^HA)}=\sqrt{tr(U\Sigma U^{-1})}=\sqrt{tr(U^{-1}U\Sigma )}=\sqrt{tr(\Sigma)}=\sqrt{\sum_i \sigma_i^2}$ 。
  - 定理5：设 $A\in C^{n\times n}_n$ ，则 $||A^{-1}||_F=\sqrt{\sum_i 1/\sigma_i^2}$ ，其中 $\sigma_1,\sigma_2,\cdots,\sigma_n$ 是 $A$ 的奇异值（重奇异值按重数算）
    证明：
    由逆矩阵的奇异值与原矩阵的奇异值的关系以及定理4直接可得。
    【注】逆矩阵的奇异值与原矩阵的奇异值的关系见链接。

结合定理3和定理4的结论，借此机会总结一下矩阵的特征值和奇异值之间的关系：
设 $A\in C^{n\times n}$ ， $A$ 的特征值按照模从小到大排序为 $\lambda_1,\lambda_2,...,\lambda_n$ ， $A$ 的奇异值按照从小到大排序为 $\sigma_1,\sigma_2,...,\sigma_n$ ，则有如下结论

$\sum_i \sigma_i^2\geqslant \sum_i |\lambda_i|^2$
$\sum_i \sigma_i^2=\sum_i |\lambda_i|^2$ 的充要条件为 $A$ 是正规矩阵
$\sigma_i=|\lambda_i|,i=1,2,...,n$ 的充要条件为 $A$ 是正规矩阵

注意，结论3的充分性在前面的博客文章中已经证明，必要性进行简单分析即可：如果 $\sigma_i=|\lambda_i|,i=1,2,...,n$ ，那么 $\sum_i \sigma_i^2=\sum_i |\lambda_i|^2$ ，于是根据结论2知 $A$ 是正规矩阵。

诱导范数（算子范数）
顾名思义，诱导范数不是用代数式直接定义的，而是“诱导”过来的，具体地说，是由向量的 $l_p$ 范数诱导的。回顾一下向量的 $l_p$ 范数：
- 定义3： $||x||_p=\Bigl(\sum_{i=1}^m|x_i|^p\Bigr)^{\frac{1}{p}},p\in{R}\land{}p\geqslant{1}$
  前面的博客（链接）中还提到过 $l_{\infty}$ 范数，其实就是 $l_p$ 范数当p趋于正无穷时的极限。
- 定义4： $||x||_\infty=max(|x_1|,|x_2|,\cdots,|x_m|)$
- 定义5：矩阵 $A\in F^{m\times n}$ 的P范数（诱导范数）定义为 $||A||_p=\max_{x\neq 0} \frac{||Ax||_p}{||x||_p}, p\in{R}\land{}p\geqslant{1}$
  【注1】值得注意的是，当 $A$ 是一个列向量时，定义式中的 $x$ 成了一个标量，分子分母可共同约去 $∣ x ∣$ ，此时矩阵的 $p$ 范数就退化成了向量的 $l_p$ 范数。因此矩阵的P范数可看做是向量的 $l_p$ 范数在矩阵上的推广。
  【注2】由定义显然易见单位矩阵的诱导范数是1。
- 定理6：矩阵的诱导范数满足四条范数公理
  证：
  [非负性] 显然 $O||_p=0$ 。对于 $A\neq O$ ，一定存在 $A$ 的一个元素 $a_{ij}\neq 0$ ，设 $A_j$ 表示 $A$ 的第j列， $e_j$ 表示第j个基本向量（第j个元素为1，其他元素为0），则 $||A||_p\geqslant\frac{||Ae_j||_p}{||e_j||_p}=\frac{||A_j||_p}{||e_j||_p}$ ，因为 $A_j\neq0$ ，所以由 $l_p$ 范数的性质知 $A_j||_p>0$ ，故 $A||_p>0$ 。
  [齐次性] 略。
  [三角不等式] $||A+B||_p=\max_{x\neq 0} \frac{||Ax+Bx||_p}{||x||_p}\leqslant\max_{x\neq 0} \frac{||Ax||_p+||Bx||_p}{||x||_p}\leqslant\max_{x\neq 0} \frac{||Ax||_p}{||x||_p}+\max_{x\neq 0} \frac{||Bx||_p}{||x||_p}=||A||_p+||B||_p$ （证明用到了 $l_p$ 范数的三角不等式和上确界的性质）。
  [矩阵乘法的相容性] 先证明对任意 $A\in F^{m\times n},x\in F^n$ 有 $||Ax||_p\leqslant||A||_p||x||_p$ ：若 $x = 0$ 显然成立，若 $x\neq 0$ ，则根据定义有 $||A||_p=\max_{y\neq 0} \frac{||Ay||_p}{||y||_p}\geqslant\frac{||Ax||_p}{||x||_p}$ ，即 $||Ax||_p\leqslant||A||_p||x||_p$ 也成立。再证明对矩阵乘法的相容性： $||AB||_p=\max_{x\neq 0} \frac{||ABx||_p}{||x||_p}\leqslant\max_{x\neq 0} \frac{||A||_p||Bx||_p}{||x||_p}=||A||_p||B||_p$ 。
常用的诱导范数
- 定理7：1范数 $||A||_1=\max_j \sum_{i=1}^m |a_{ij}|,j=1,2,...,n$ （又叫列和范数）
  证明：
  根据定义， $||A||_1=\max_{x\neq 0} \frac{||Ax||_1}{||x||_1}$ 。由于 $\begin{aligned} \frac{||Ax||_1}{||x||_1}&=\frac{\sum_{i=1}^m|\sum_{j=1}^na_{ij}x_j|}{\sum_{j=1}^n|x_j| }\\&\leqslant \frac{\sum_{i=1}^m\sum_{j=1}^n|a_{ij}||x_j|}{\sum_{j=1}^n|x_j|}\\&=\frac{\sum_{j=1}^n\sum_{i=1}^m|a_{ij}||x_j|}{\sum_{j=1}^n|x_j|}\\&\leqslant \frac{max_j\sum_{i=1}^m|a_{ij}|\sum_{j=1}^n|x_j|}{\sum_{j=1}^n|x_j|}\\&=\max_j \sum_{i=1}^m |a_{ij}| \end{aligned}$ 这说明 $\max_j \sum_{i=1}^m |a_{ij}|$ 是 $\frac{||Ax||_1}{||x||_1}$ 的一个上界。构造如下的向量 $x'\neq 0$ ，使得 $\frac{||Ax'||_1}{||x'||_1}=\max_j \sum_{i=1}^m |a_{ij}|$ ：
  设当 $j = k$ 时 $\sum_{i=1}^m |a_{ij}|$ 取得最大值，令 $x^{'}$ 的第k个分量为1，其他分量为0，则易验证 $\frac{||Ax'||_1}{||x'||_1}=\max_j \sum_{i=1}^m |a_{ij}|$ 。这就证明了 $||A||_1=\max_j \sum_{i=1}^m |a_{ij}|,j=1,2,...,n$ 。
- 定理8：2范数 $||A||_2=\sigma_{max}$ （又叫谱范数），其中 $\sigma_{max}$ 是A的最大奇异值
  证明：（请参考矩阵的正定性中矩阵不等式部分的内容）
  根据定义， $||A||_2=\max_{x\neq 0} \frac{||Ax||_2}{||x||_2}=\max_{x\neq 0}\sqrt{\frac{x^HA^HAx}{x^Hx}}$ 。考虑半正定矩阵 $A^HA$ 的一个谱分解 $A^HA=U\Sigma U^H$ ，其中 $\Sigma = diag(\lambda_1, \lambda_2,...\lambda_n)$ 满足 $\lambda_1\geqslant\lambda_2\geqslant...\geqslant\lambda_n\geqslant 0$ ，则有矩阵不等式 $\Sigma\leqslant\lambda_1I$ 成立。于是 $\begin{aligned}\sqrt{\frac{x^HA^HAx}{x^Hx}}&=\sqrt{\frac{x^HU\Sigma U^Hx}{x^Hx}}\\&=\sqrt{\frac{(U^Hx)^H\Sigma(U^Hx)}{(U^Hx)^H(U^Hx)}}\\&\leqslant\sqrt{\frac{(U^Hx)^H\lambda_1I(U^Hx)}{(U^Hx)^H(U^Hx)}}\\&=\sqrt{\lambda_1}=\sigma_{max}\end{aligned}$ 现构造向量 $x'\neq 0$ 使得 $\frac{||Ax'||_2}{||x'||_2}=\sigma_{max}$ ：
  显然只要 $U^Hx'=(1,0,..,0)^T$ 就有 $(U^Hx')^H\Sigma(U^Hx')=\lambda_1$ 且 $x')^Hx'=1$ ，故构造 $x'=U(1,0,..,0)^T$ ，就有 $\frac{||Ax'||_2}{||x'||_2}=\sigma_{max}$ 。这就证明了 $||A||_2=\sigma_{max}$ 。
  【推论1】若A可逆，则 $||A^{-1}||_2=1/\sigma_{min}$ ，其中 $\sigma_{min}$ 是A的最小奇异值
  证明：（请参考链接中逆矩阵的奇异值部分）
  设 $A$ 的最小奇异值为 $\sigma_{min}$ ，由 $A^{-1}$ 与 $A$ 的奇异值的关系知， $1/\sigma_{min}$ 是 $A^{-1}$ 的最大奇异值。故 $||A^{-1}||_2=1/\sigma_{min}$ 。
  【推论2】若A是正规矩阵，则 $||A||_2=|\lambda|$ ，其中 $\lambda$ 是A的模最大的特征值；若A还可逆，则 $||A^{-1}||_2=1/|\lambda'|$ ，其中 $\lambda'$ 是A的模最小的特征值。
  证明：由正规矩阵的特征值与奇异值的关系即证（见链接）。
- 定理9： $\infty$ 范数 $||A||_{\infty}=\max_i \sum_{j=1}^n |a_{ij}|,i=1,2,...,m$ （又叫行和范数）
  证明：
  若 $A = O$ ，则结论显然成立。下面证明 $A\neq O$ 的情况：
  根据定义， $||A||_{\infty}=\max_{x\neq 0} \frac{||Ax||_{\infty}}{||x||_{\infty}}$ 。 $\begin{aligned}\frac{||Ax||_{\infty}}{||x||_{\infty}}&=\frac{\max_i|\sum_{j=1}^na_{ij}x_j|}{\max_j|x_j|}\\&\leqslant \frac{\max_i\sum_{j=1}^n|a_{ij}||x_j|}{\max_j|x_j|}\\&\leqslant \frac{\max_i\sum_{j=1}^n|a_{ij}|\max_j|x_j|}{\max_j|x_j|}\\&=\max_i\sum_{j=1}^n|a_{ij}|\end{aligned}$ 现构造列向量 $x'\neq 0$ 使得 $\frac{||Ax'||_{\infty}}{||x'||_{\infty}}=\max_i\sum_{j=1}^n|a_{ij}|$ ：
  设当 $i = k$ 时 $\sum_{j=1}^n|a_{ij}|$ 取得最大值，令 $x^{'}$ 满足 $x'_j=\begin{cases}\frac{\overline{a_{kj}}}{|a_{kj}|}&a_{kj}\neq 0\\0&a_{kj}=0\end{cases}$ （注意，因为 $A\neq O$ ，所以至少存在一个 $j$ 使得 $a_{kj}\neq 0$ ）则 $a_kx'=\sum_{j=1}^n|a_{kj}|=\max_i\sum_{j=1}^n|a_{ij}|$ 且 $||x'||_{\infty}=1$ 。因为 $\begin{aligned}|a_ix'|&=|\sum_{a_{kj}\neq 0}a_{ij}\frac{\overline{a_{kj}}}{|a_{kj}|}|\\&\leqslant\sum_{a_{kj}\neq 0}|a_{ij}||a_{kj}||a_{kj}|^{-1}\\&=\sum_{a_{kj}\neq 0}|a_{ij}|\\&\leqslant\sum_{j=1}^n|a_{ij}|\\&\leqslant\sum_{j=1}^n|a_{kj}|\\&=|a_kx'|\end{aligned}$ 所以 $||Ax'||_{\infty}=|a_kx'|$ ， $\frac{||Ax'||_{\infty}}{||x'||_{\infty}}=|a_kx'|=\max_i\sum_{j=1}^n|a_{ij}|$ 。
  这就证明了 $||A||_{\infty}=\max_i \sum_{j=1}^n |a_{ij}|,i=1,2,...,m$ 。
其它范数
- 定义6：Mahalanobis范数 $||A||_{\Omega}=\sqrt{tr(A^H\Omega A)}$ 其中 $\Omega$ 是一个正定矩阵，有点类似于向量的二次范数。

矩阵的条件数

定义7：设 $A\in{F^{n\times n}_n}$ ，A的条件数定义为 $cond(A)=||A||||A^{-1}||$ ，其中 $||\bullet||$ 是定义在 $F^{n\times n}$ 上的矩阵范数

根据定义来看，任意一种矩阵范数都可以用来定义条件数。矩阵的条件数具有如下性质：（以下均设A，B是同阶可逆矩阵）

定理10：
（1） $cond(A)\geqslant 1$
证明： $cond(A)=||A||||A^{-1}||\geqslant ||I||\geqslant 1$
（2） $cond(A)=cond(A^{-1})$
（3） $cond(kA)=cond(A),k\neq 0,k\in F$
（4） $cond(AB)\leqslant cond(A)cond(B)$
证明： $cond(AB)=||AB||||B^{-1}A^{-1}||\leqslant ||A||||B||||B^{-1}||||A^{-1}||=cond(A)cond(B)$

下面是四种常用的条件数（分别对应上面介绍的四种矩阵范数）：

定义8：
（1） $cond_1(A)=||A||_1||A^{-1}||_1$ （1-条件数）
（2） $cond_2(A)=||A||_2||A^{-1}||_2$ （2-条件数）
（3） $cond_{\infty}(A)=||A||_{\infty}||A^{-1}||_{\infty}$ （ $\infty$ -条件数）
（4） $cond_F(A)=||A||_F||A^{-1}||_F$ （Frobenius范数的条件数）
上面四种条件数在matlab中的调用分别为cond(A,1)，cond(A,2)，cond(A,inf)，cond(A,‘fro’)

2-条件数可以通过矩阵的奇异值分解计算得到，这是因为有如下计算式：

定理11： $cond_2(A)=\frac{\sigma_{max}}{\sigma_{min}}$ ，其中 $\sigma_{max}$ 是A的最大奇异值， $\sigma_{min}$ 是A的最小奇异值
证明： $cond_2(A)=||A||_2||A^{-1}||_2$ ，定理8及其推论已经证明 $||A||_2=\sigma_{max}$ ， $||A^{-1}||_2=1/\sigma_{min}$ ，所以 $cond_2(A)=\frac{\sigma_{max}}{\sigma_{min}}$ 。

当A是正规矩阵时，还有如下计算式：

定理12： $cond_2(A)=\frac{|\lambda_{max}|}{|\lambda_{min}|}$ ，其中 $\lambda_{max}$ 是A的模最大的特征值， $\lambda_{min}$ 是A的模最小的特征值。
（由正规矩阵的特征值与奇异值的关系可知 $\sigma_{max}=|\lambda_{max}|$ 且 $\sigma_{min}=|\lambda_{min}|$ ，证明参考链接）

由上面的计算式可以导出2-条件数的如下性质：

定理13：若U为酋矩阵，则 $cond_2(U)=1$ 且
$cond_2(AU)=cond_2(UA)=cond_2(A)$
证明：由于酋矩阵都是正规矩阵，故 $cond_2(U)=\frac{|\lambda_{max}|}{|\lambda_{min}|}$ ，而酋矩阵的任意特征值的模长为1（定理2），故 $cond_2(U)=1$ 。由于奇异值具有酋不变性（旋转不变性），故 $A U$ ， $U A$ ， $A$ 的奇异值相同，所以 $cond_2(AU)=cond_2(UA)=cond_2(A)$ 。

F-条件数也可以根据矩阵的奇异值（或 $A^HA$ 的谱分解）计算得出，有如下计算式：

定理14：设 $A\in C^{n\times n}_n$ ， $\sigma_1,\sigma_2,\cdots,\sigma_n$ 为 $A$ 的全部奇异值（重奇异值按重数算），则 $cond_F(A)=\sqrt{\sum_i \sigma_i^2\sum_i 1/\sigma_i^2}$
证明：根据定理4和定理5有 $||A||_F=\sqrt{\sum_i \sigma_i^2}$ 以及 $||A^{-1}||_F=\sqrt{\sum_i 1/\sigma_i^2}$ 。

误差估计

条件数可以给出误差估计的界，从而能够用于衡量一个问题是良态的还是病态的。下面以两个常见的问题为例（矩阵求逆和线性方程组求解），说明条件数在误差估计方面的作用。
【注】下面出现的条件数均由矩阵的算子范数定义，即 $cond(A)=||A||||A^{-1}||$ ，其中 $||\bullet||$ 是矩阵的任意算子范数（诱导范数）。

引理：设 $||\bullet||$ 是矩阵的任意一个诱导范数。若 $||B||\lt 1$ ，则 $I - B$ 可逆，且有 $||(I-B)^{-1}||\leqslant\frac{1}{1-||B||}$
证明：
先用反证法证明 $I - B$ 可逆：假设 $I - B$ 不可逆，则齐次线性方程组 $(I - B) x = 0$ 有非零解，于是 $\begin{aligned}0&=||0||=||(I-B)x||=||x-Bx||\\&\geqslant||x||-||Bx||\geqslant||x||-||B||||x||\\&=(1-||B||)||x||\gt 0\end{aligned}$ 矛盾，故 $I - B$ 可逆。
由 $I - B$ 可逆，有 $\begin{aligned}1&=||I||=||(I-B)(I-B)^{-1}||=||(I-B)^{-1}-B(I-B)^{-1}||\\&\geqslant||(I-B)^{-1}||-||B(I-B)^{-1}||\geqslant||(I-B)^{-1}||-||B||||(I-B)^{-1}||\\&=(1-||B||)||(I-B)^{-1}||\end{aligned}$ 于是 $||(I-B)^{-1}||\leqslant\frac{1}{1-||B||}$ 。

条件数对矩阵求逆的误差估计

定理15：设 $A\in F^{n\times n}_n$ ， $\delta A\in F^{n\times n}$ ，若 $||A^{-1}\delta A||<1$ ，则 $A+\delta A$ 可逆，且下式成立： $\frac{||A^{-1}-(A+\delta A)^{-1}||}{||A^{-1}||}\leqslant\frac{||A^{-1}\delta A||}{1-||A^{-1}\delta A||}$
证明：
因为 $||-A^{-1}\delta A||=||A^{-1}\delta A||<1$ ，故由引理知 $I+A^{-1}\delta A=I-(-A^{-1}\delta A)$ 可逆，且有 $||(I+A^{-1}\delta A)^{-1}||\leqslant\frac{1}{1-||A^{-1}\delta A||}$ 。
因为 $A+\delta A=A(I+A^{-1}\delta A)$ ，故 $A+\delta A$ 也是可逆的，且 $\begin{aligned}A^{-1}-(A+\delta A)^{-1}&=A^{-1}-(I+A^{-1}\delta A)^{-1}A^{-1}\\&=(I-(I+A^{-1}\delta A)^{-1})A^{-1}\end{aligned}$ 注意到 $(I+A^{-1}\delta A)(I-(I+A^{-1}\delta A)^{-1})=A^{-1}\delta A$ ，即 $I-(I+A^{-1}\delta A)^{-1}=(I+A^{-1}\delta A)^{-1}A^{-1}\delta A$ ，于是 $\begin{aligned}\frac{||A^{-1}-(A+\delta A)^{-1}||}{||A^{-1}||}&\leqslant||I-(I+A^{-1}\delta A)^{-1}||\\&=||(I+A^{-1}\delta A)^{-1}A^{-1}\delta A||\\&\leqslant||(I+A^{-1}\delta A)^{-1}||||A^{-1}\delta A||\\&\leqslant\frac{||A^{-1}\delta A||}{1-||A^{-1}\delta A||}\end{aligned}$ 证毕。
【注】当矩阵 $A$ 的误差 $\delta A$ 足够小，即 $||\delta A||$ 足够小时，能够满足 $||A^{-1}||||\delta A||\lt 1$ ，则 $||A^{-1}\delta A||\leqslant||A^{-1}||||\delta A||<1$ ，即定理的条件满足。
定理16：设 $A\in F^{n\times n}_n$ ， $\delta A\in F^{n\times n}$ ，若 $||A^{-1}\delta A||<1$ ，则下式成立： $\frac{||A^{-1}-(A+\delta A)^{-1}||}{||A^{-1}||}\leqslant\frac{cond(A)}{1-cond(A)\frac{||\delta A||}{||A||}}\frac{||\delta A||}{||A||}$
证明：
只需证明 $\frac{||A^{-1}\delta A||}{1-||A^{-1}\delta A||}\leqslant\frac{cond(A)}{1-cond(A)\frac{||\delta A||}{||A||}}\frac{||\delta A||}{||A||}$ 即可。 $\begin{aligned}\frac{||A^{-1}\delta A||}{1-||A^{-1}\delta A||}&\leqslant\frac{||A^{-1}||||\delta A||}{1-||A^{-1}||||\delta A||}\\&=\frac{||A^{-1}||||A||}{1-||A^{-1}||||A||\frac{||\delta A||}{||A||}}\frac{||\delta A||}{||A||}\\&=\frac{cond(A)}{1-cond(A)\frac{||\delta A||}{||A||}}\frac{||\delta A||}{||A||}\end{aligned}$ 得证。
【注】显然，当相对误差项 $\frac{||\delta A||}{||A||}$ 固定时，矩阵的条件数 $c o n d (A)$ 越大，则矩阵求逆的相对误差 $\frac{||A^{-1}-(A+\delta A)^{-1}||}{||A^{-1}||}$ 的上界越大，即该误差越“不可控”。这说明矩阵的条件数越大，则解越不稳定，解的精度受到问题输入的误差的影响越大。

条件数对线性方程组求解的误差估计

定理17：设 $A\in F^{n\times n}_n$ ， $\delta A\in F^{n\times n}$ ， $b,\delta b\in F^n$ ，若 $||A^{-1}\delta A||<1$ ， $x$ 满足 $A x = b$ ， $x+\delta x$ 满足 $(A+\delta A)(x+\delta x)=(b+\delta b)$ ，则 $\frac{||\delta x||}{||x||}\leqslant\frac{cond(A)}{1-cond(A)\frac{||\delta A||}{||A||}}(\frac{||\delta A||}{||A||}+\frac{||\delta b||}{||b||})$
证明：
由 $||-A^{-1}\delta A||=||A^{-1}\delta A||\lt 1$ 知， $I+A^{-1}\delta A=I-(-A^{-1}\delta A)$ 可逆，且 $||(I+A^{-1}\delta A)^{-1}||\leqslant \frac{1}{1-||A^{-1}\delta A||}\leqslant \frac{1}{1-||A^{-1}||||\delta A||}$ 。
由已知可得 $(A+\delta A)\delta x=\delta b-(\delta A)x$ ，用 $A^{-1}$ 左乘两端得 $(I+A^{-1}\delta A)\delta x=A^{-1}(\delta b-(\delta A)x)$ ，则 $\delta x=(I+A^{-1}\delta A)^{-1}A^{-1}(\delta b-(\delta A)x)$ 。 $\begin{aligned}||\delta x||&=||(I+A^{-1}\delta A)^{-1}A^{-1}(\delta b-(\delta A)x)||\\&\leqslant||(I+A^{-1}\delta A)^{-1}||||A^{-1}||||(\delta b-(\delta A)x)||\\&\leqslant\frac{||A^{-1}||}{1-||A^{-1}||||\delta A||}(||\delta b||+||\delta A||||x||)\\&=\frac{||A^{-1}||||A||||x||}{1-||A^{-1}||||\delta A||}(\frac{||\delta b||}{||A||||x||}+\frac{||\delta A||}{||A||})\end{aligned}$ 因为 $A x = b$ ，所以 $||b||\leqslant||A||||x||$ 。 $\begin{aligned}\frac{||\delta x||}{||x||}&\leqslant\frac{||A^{-1}||||A||}{1-||A^{-1}||||\delta A||}(\frac{||\delta b||}{||A||||x||}+\frac{||\delta A||}{||A||})\\&\leqslant\frac{||A^{-1}||||A||}{1-||A^{-1}||||\delta A||}(\frac{||\delta b||}{||b||}+\frac{||\delta A||}{||A||})\\&=\frac{cond(A)}{1-cond(A)\frac{||\delta A||}{||A||}}(\frac{||\delta A||}{||A||}+\frac{||\delta b||}{||b||})\end{aligned}$ 证毕。
【注】固定 $b$ 和 $A$ 的相对误差项 $\frac{||\delta b||}{||b||}$ 和 $\frac{||\delta A||}{||A||}$ ，当 $c o n d (A)$ 增大时，解的相对误差 $\frac{||\delta x||}{||x||}$ 的上界增大，故解越不稳定。
定理18：设 $A\in F^{n\times n}_n$ ， $b,\delta b\in F^n$ ， $x,\delta x$ 满足 $Ax=b,A(x+\delta x)=b+\delta b$ ，则下式成立： $\frac{1}{cond(A)}\frac{||\delta b||}{||b||}\leqslant\frac{||\delta x||}{||x||}\leqslant cond(A)\frac{||\delta b||}{||b||}$
证明：
上一条定理中令 $\delta A=O$ ，就得到 $\frac{||\delta x||}{||x||}\leqslant cond(A)\frac{||\delta b||}{||b||}$ 。
现证明不等式的左半部分：由已知得 $A\delta x=\delta b$ ，故 $||\delta b||\leqslant||A||||\delta x||$ ， $\frac{||\delta x||}{||x||}\geqslant\frac{||\delta b||}{||A||||x||}$ 。由 $A x = b$ 得 $x=A^{-1}b$ ，故 $||x||\leqslant||A^{-1}||||b||$ ，故 $\frac{||\delta x||}{||x||}\geqslant\frac{||\delta b||}{||A||||A^{-1}||||b||}=\frac{1}{cond(A)}\frac{||\delta b||}{||b||}$ 。得证。
【注】当 $b$ 的相对误差项 $\frac{||\delta b||}{||b||}$ 固定时，条件数 $c o n d (A)$ 越小，则解的相对误差的下界越大，上界越小。这说明条件数越小，则解的误差越可控。特别地，当 $c o n d (A) = 1$ 即取到最小值时，有 $\frac{||\delta x||}{||x||}=\frac{||\delta b||}{||b||}$ ，此时解的误差完全可控。

上面的这些定理给我们已有的直观感受（条件数越大，数值计算的误差越大）一个严格的数学解释。

思考：什么时候cond(A)最小？

前面定理15-18告诉我们，矩阵的条件数越小，线性方程组求解和矩阵求逆的相对误差的范围就越小，特别地，定理18说明当 $c o n d (A)$ 最小（即 $c o n d (A) = 1$ ，定理9（1））时，线性方程组解的相对误差与常数项 $b$ 的相对误差相等。那么自然有疑问，什么时候矩阵的条件数可以取得最小值呢？由于定理15-18的结论都是基于诱导范数，我们可以针对某个诱导范数定义的条件数来考虑。由定理11，2-条件数有十分简洁的公式 $cond_2(A)=\frac{\sigma_{max}}{\sigma_{min}}$ ，其中 $\sigma_{max},\sigma_{min}$ 分别是 $A$ 的最大奇异值和最小奇异值，根据这个公式很明显可以看出 $cond_2(A)=1$ 的充要条件是 $A$ 有唯一的奇异值。由此出发可以简便地得到以下结论：

定理19：设 $A\in C_n^{n\times n}$ ，则 $cond_2(A)=1$ 的充要条件为存在常数 $k > 0$ 使 $A^HA=kI$
证：
必要性：由定理11， $cond_2(A)=1$ 说明 $A$ 有一个n重奇异值（非零），设为 $\sigma$ ，由奇异值的定义知 $A^HA$ 有一个n重特征值 $\sigma^2$ 。对 $A^HA$ 进行谱分解得到 $A^HA=U\Sigma U^H=U(\sigma^2 I)U^H=\sigma^2 UU^H=\sigma^2 I$ ，可见存在常数 $k=\sigma^2>0$ 使得 $A^HA=kI$ 。
充分性：若存在 $k > 0$ 使得 $A^HA=kI$ ，则 $A^HA$ 有一个n重特征值 $k$ ，由奇异值的定义知 $A$ 有一个n重奇异值 $\sqrt{k}$ ，从而由定理11知 $cond_2(A)=1$ 。

分析一下 $A^HA=kI$ 这个条件：把 $A$ 写成按列分块的形式（列向量组） $A=\begin{bmatrix}a_1&a_2&\cdots&a_n\end{bmatrix}$ ，则 $A^HA=kI$ 就是说 $a_i^Ha_j=\begin{cases}0,&若i\neq j\\k,&若i=j\end{cases}$ ，即 $A$ 的列是两两正交的（ $A$ 是列正交的）且 $A$ 的列向量的 $l_2$ 范数均相等。这样的矩阵我们最熟悉的例子应该就是酋矩阵了，酋矩阵是列正交的且每一列的 $l_2$ 范数是1（这恰好验证了定理13， $cond_2(U)=1$ ）。此外，定理19还可换个说法： $cond_2(A)=1$ 的充要条件为 $A$ 的列向量组是 $C^n$ 的正交基，其中每个基向量的长度（ $l_2$ 范数）相等。

不过，这只是从矩阵的2范数的角度考虑，此时定理18的不等式取等号结果为 $\frac{||\delta x||_2}{||x||_2}=\frac{||\delta b||_2}{||b||_2}$ 因为定理15~18对任意诱导范数定义的条件数都成立，而上面只讨论了2范数的情况。对于下面这个 $cond_1(A)=1$ 但 $cond_2(A)>1$ 的例子，定理18的不等式也可取到等号，只是式中的范数都应取为1范数（即 $\frac{||\delta x||_1}{||x||_1}=\frac{||\delta b||_1}{||b||_1}$ ）： $A=\begin{bmatrix}1&0&0\\0&1&0\\0&0&0.1\end{bmatrix}$ 有 $cond_1(A)=1$ 而 $cond_2(A)=10$ 。