矩阵论(五):矩阵的正定性

矩阵论专栏:专栏(文章按照顺序排序)

矩阵的正定性是矩阵理论的基础,在机器学习的很多算法中都有它的身影。正定矩阵是很基础的工具,当涉及到诸如协方差矩阵、海森矩阵、不等式时就可能会用到正定性。另外,控制理论、凸优化理论等有线性矩阵不等式的重要应用。研究矩阵正定性用特征值分解(谱分解)比较方便、自然,本文利用特征值分解探讨正定性的常用结论,并在个人能力范围内尽量做到全面、清晰。文中如有错误,欢迎留言更正。

参考资料:
线性代数基础知识系列:12345
矩阵分解—从Schur分解、特征值分解EVD到奇异值分解SVD(下)
矩阵论(补充知识):特征多项式的展开式

定理比较多,个人认为比较重要的结论/定理,都用加粗字体标出。文中定理5和定理25使用了摄动法,有点类似于物理学中的微扰法。当我们研究的某个函数是连续函数时,如果想知道该函数在某一个具体点处的性质,只要给自变量一个微小增量,在该点的“附近”论证性质成立,然后取极限证明该点处性质仍成立。

本文只研究Hermite矩阵/实对称矩阵的正定性。


  • 矩阵的正定性及其性质
    • 实正定矩阵
    • 一些概念补充(合同、共轭相合、主子式、顺序主子式)
    • 正定、半正定、负定、半负定的定义
    • 判别矩阵正定性的充要条件
    • 其他常用的性质
  • 矩阵的算数平方根
    • 存在性与唯一性
    • 推广:矩阵的有理数次幂
  • 矩阵不等式
    • 定义与理解
    • 基本性质
    • 其他常用性质
    • 常用的矩阵不等式举例
      • Hermite矩阵的一个不等式
      • 分块矩阵的Schur补定理
  • 矩阵不等式的一个应用:瑞利商与广义瑞利商

矩阵的正定性及其性质

复习实正定矩阵
  • 定义:称关于n个变量 x 1 , x 2 , . . . , x n ∈ R x_1,x_2,...,x_n\in R x1,x2,...,xnR的二次齐次实系数多项式函数 f ( x 1 , x 2 , . . . , x n ) = ∑ i = 1 n ∑ j = 1 n a i j x i x j , a i j = a j i f(x_1,x_2,...,x_n)=\sum_{i=1}^n\sum_{j=1}^na_{ij}x_ix_j,a_{ij}=a_{ji} f(x1,x2,...,xn)=i=1nj=1naijxixj,aij=aji为一个n元实二次型
  • 定义:设有n元实二次型 f ( x 1 , x 2 , . . . , x n ) = ∑ i = 1 n ∑ j = 1 n a i j x i x j , a i j = a j i f(x_1,x_2,...,x_n)=\sum_{i=1}^n\sum_{j=1}^na_{ij}x_ix_j,a_{ij}=a_{ji} f(x1,x2,...,xn)=i=1nj=1naijxixj,aij=aji,令 x = ( x 1 , x 2 , . . . , x n ) T x=(x_1,x_2,...,x_n)^T x=(x1,x2,...,xn)T A = ( a i j ) n × n A=(a_{ij})_{n\times n} A=(aij)n×n,则该实二次型可被写成 f ( x ) = x T A x f(x)=x^TAx f(x)=xTAx,称实对称矩阵A为二次型 f ( x ) f(x) f(x)的矩阵,A的秩为二次型 f ( x ) f(x) f(x)的秩
  • 定义:设 f ( x ) = x T A x f(x)=x^TAx f(x)=xTAx是一个n元实二次型,若对 ∀ x ∈ R n , x ≠ 0 \forall x\in R^n,x\neq 0 xRn,x=0 f ( x ) > 0 f(x)>0 f(x)>0,则称 f f f为正定二次型,实对称矩阵A为正定矩阵

参照上面的定义,一个n阶实对称矩阵A和相应的二次型 x T A x x^TAx xTAx称为:
半正定的,若对 ∀ x ∈ R n , x ≠ 0 \forall x\in R^n,x\neq 0 xRn,x=0 x T A x ⩾ 0 x^TAx\geqslant 0 xTAx0
负定的,若对 ∀ x ∈ R n , x ≠ 0 \forall x\in R^n,x\neq 0 xRn,x=0 x T A x < 0 x^TAx<0 xTAx<0
半负定的,若对 ∀ x ∈ R n , x ≠ 0 \forall x\in R^n,x\neq 0 xRn,x=0 x T A x ⩽ 0 x^TAx\leqslant 0 xTAx0
不定的,若 x T A x x^TAx xTAx既能取到正值也能取到负值。

实数域下正定矩阵的结论与复数域下正定矩阵的结论是一致的,下面直接讨论复数域下的结论。

一些概念补充
  • 合同:设A,B为n阶实矩阵,若存在n阶可逆实矩阵P使得 P T A P = B P^TAP=B PTAP=B,则称A与B合同(或A合同于B),记为 A ≃ B A\simeq B AB,并称A到 P T A P P^TAP PTAP的变换为合同变换
  • 共轭相合(也简称相合):设 A , B ∈ C n × n A,B\in C^{n\times n} A,BCn×n,若存在 P ∈ C n n × n P\in C^{n\times n}_n PCnn×n使得 P H A P = B P^HAP=B PHAP=B,则称A共轭相合于B,或A与B共轭相合

实数域下的合同可以看做是复数域下的共轭相合的特例。

  • 主子式:设 A = ( a i j ) n × n A=(a_{ij})_{n\times n} A=(aij)n×n 1 ⩽ i 1 < i 2 < ⋯ < i k ⩽ n 1\leqslant i_1\lt i_2\lt \cdots \lt i_k\leqslant n 1i1<i2<<ikn,称 A ( i 1 i 2 ⋯ i k i 1 i 2 ⋯ i k ) = [ a i 1 i 1 a i 1 i 2 ⋯ a i 1 i k a i 2 i 1 a i 2 i 2 ⋯ a i 2 i k ⋯ ⋯ ⋯ ⋯ a i k i 1 a i k i 2 ⋯ a i k i k ] A\begin{pmatrix}i_1&i_2&\cdots&i_k\\i_1&i_2&\cdots&i_k\end{pmatrix}=\begin{bmatrix}a_{i_1i_1}&a_{i_1i_2}&\cdots&a_{i_1i_k}\\a_{i_2i_1}&a_{i_2i_2}&\cdots&a_{i_2i_k}\\\cdots&\cdots&\cdots&\cdots\\a_{i_ki_1}&a_{i_ki_2}&\cdots&a_{i_ki_k}\end{bmatrix} A(i1i1i2i2ikik)=ai1i1ai2i1aiki1ai1i2ai2i2aiki2ai1ikai2ikaikik为A的一个k阶主子矩阵,其行列式为A的k阶主子式
    【注】符号 A ( i 1 i 2 ⋯ i k i 1 i 2 ⋯ i k ) A\begin{pmatrix}i_1&i_2&\cdots&i_k\\i_1&i_2&\cdots&i_k\end{pmatrix} A(i1i1i2i2ikik)大括号内的第一行是A的若干行指标(索引),第二行是A的若干列指标(索引),这个符号的整体意思就是取A的第 i 1 , i 2 , ⋯   , i k i_1,i_2,\cdots,i_k i1,i2,,ik行,与相应的第 i 1 , i 2 , ⋯   , i k i_1,i_2,\cdots,i_k i1,i2,,ik列,这些行和列交叉位置的元素按照原本的位置关系排列成的新矩阵。这个矩阵是A的子矩阵之一,因为行指标和列指标相同,所以称为主子矩阵。
  • 顺序主子式:设 A = ( a i j ) n × n A=(a_{ij})_{n\times n} A=(aij)n×n,称主子矩阵 A ( 1 2 ⋯ k 1 2 ⋯ k ) , k ⩽ n A\begin{pmatrix}1&2&\cdots&k\\1&2&\cdots&k\end{pmatrix},k\leqslant n A(1122kk),kn的行列式为A的k阶顺序主子式
正定、半正定、负定、半负定的定义

注意到对于一共轭对称矩阵 A ∈ C n × n A\in C^{n\times n} ACn×n以及 x ∈ C n x\in C^n xCn ( x H A x ) H = x H A H x = x H A x (x^HAx)^H=x^HA^Hx=x^HAx (xHAx)H=xHAHx=xHAx,即 x H A x ‾ = x H A x \overline{x^HAx}=x^HAx xHAx=xHAx,故 x H A x x^HAx xHAx是实数。因而实数域下正定性的概念可直接推广到复数域上来(实数域下正定性是用 x T A x > 0 x^TAx>0 xTAx>0定义的,那么复数域下正定性用 x H A x > 0 x^HAx>0 xHAx>0来定义):

  • 定义:称关于n个变量 x 1 , x 2 , . . . , x n ∈ C x_1,x_2,...,x_n\in C x1,x2,...,xnC的二次齐次复系数多项式函数 f ( x 1 , x 2 , . . . , x n ) = ∑ i = 1 n ∑ j = 1 n a i j x i ‾ x j f(x_1,x_2,...,x_n)=\sum_{i=1}^n\sum_{j=1}^na_{ij}\overline{x_i}x_j f(x1,x2,...,xn)=i=1nj=1naijxixj,满足 a i j ‾ = a j i \overline{a_{ij}}=a_{ji} aij=aji,为一个n元Hermite二次型
  • 定义:设有n元二次型 f ( x 1 , x 2 , . . . , x n ) = ∑ i = 1 n ∑ j = 1 n a i j x i ‾ x j , a i j ‾ = a j i f(x_1,x_2,...,x_n)=\sum_{i=1}^n\sum_{j=1}^na_{ij}\overline{x_i}x_j,\overline{a_{ij}}=a_{ji} f(x1,x2,...,xn)=i=1nj=1naijxixj,aij=aji,令 x = ( x 1 , x 2 , . . . , x n ) T x=(x_1,x_2,...,x_n)^T x=(x1,x2,...,xn)T A = ( a i j ) n × n A=(a_{ij})_{n\times n} A=(aij)n×n,则该二次型可被写成 f ( x ) = x H A x f(x)=x^HAx f(x)=xHAx,称Hermite矩阵A为Hermite二次型 f ( x ) f(x) f(x)的矩阵,A的秩为Hermite二次型 f ( x ) f(x) f(x)的秩
  • 定义:设 f ( x ) = x H A x f(x)=x^HAx f(x)=xHAx是一个n元Hermite二次型,若对 ∀ x ∈ C n , x ≠ 0 \forall x\in C^n,x\neq 0 xCn,x=0 f ( x ) > 0 f(x)>0 f(x)>0,则称 f f f为正定Hermite二次型,Hermite矩阵A为正定矩阵

参照上面的定义,一个n阶共轭对称矩阵A和相应的二次型 x H A x x^HAx xHAx称为:
半正定的,若对 ∀ x ∈ C n , x ≠ 0 \forall x\in C^n,x\neq 0 xCn,x=0 x H A x ⩾ 0 x^HAx\geqslant 0 xHAx0
负定的,若对 ∀ x ∈ C n , x ≠ 0 \forall x\in C^n,x\neq 0 xCn,x=0 x H A x < 0 x^HAx<0 xHAx<0
半负定的,若对 ∀ x ∈ C n , x ≠ 0 \forall x\in C^n,x\neq 0 xCn,x=0 x H A x ⩽ 0 x^HAx\leqslant 0 xHAx0
不定的,若 x H A x x^HAx xHAx既能取到正值也能取到负值。

一般而言,除了一些特别简单的矩阵(如单位矩阵、对角矩阵)以外,很难根据定义来判别一个Hermite矩阵的正定性。例如,如果要在计算机上识别Hermite矩阵 A A A的正定性,那么仅仅根据定义是无法实现的,因为计算机不可能遍历 C n C^n Cn中的所有向量 x x x来判断 x H A x x^HAx xHAx的正负情况。因此以下判别矩阵正定性的充要条件是非常重要的。

判别矩阵正定性的充要条件

对于正定矩阵和半正定矩阵的判定稍微有些差异,下面的结论会将正定矩阵和半正定矩阵分开说明。因为 A A A正定等价于 − A -A A负定, A A A半正定等价于 − A -A A半负定,所以(半)负定矩阵的等价条件可由相应的(半)正定矩阵的等价条件得到,本文略去。

以下均设 A , B ∈ C n × n A,B\in C^{n\times{n}} A,BCn×n,A,B均为共轭对称矩阵(Hermite矩阵)。

特征值判定
特征值判定是Hermite矩阵正定性最重要的一种判别方法,能够将正定性的判别问题转换成特征值正负的判断,由于特征值是有限个,且有成熟的数值算法,因此这是十分有效的一种方法。
需要指出的是, A A A的特征值均为实数,否则 A A A的特征值的正负便无从谈起。证明很简单:设 λ \lambda λ是A的任意一个特征值, x x x是对应的特征向量,则 A x = λ x , x ≠ 0 Ax=\lambda x,x\neq 0 Ax=λx,x=0 x H A x = x H λ x = λ ∣ ∣ x ∣ ∣ 2 2 x^HAx=x^H\lambda x=\lambda ||x||_2^2 xHAx=xHλx=λx22,前面已经提到 x H A x x^HAx xHAx是实数,因此 λ = x H A x ∣ ∣ x ∣ ∣ 2 2 \lambda=\frac{x^HAx}{||x||_2^2} λ=x22xHAx也是实数。

  • 定理1:A正定的充要条件为A的特征值都大于零
    证明:
    必要性:设 A x = λ x , x ≠ 0 Ax=\lambda x,x\neq 0 Ax=λx,x=0,即 λ \lambda λ是A的任意一个特征值, x x x是对应的特征向量,则 0 < x H A x = x H λ x = λ ∣ ∣ x ∣ ∣ 2 2 0<x^HAx=x^H\lambda x=\lambda ||x||_2^2 0<xHAx=xHλx=λx22,因为 ∣ ∣ x ∣ ∣ 2 > 0 ||x||_2>0 x2>0,所以 λ > 0 \lambda >0 λ>0
    充分性:设A的一个谱分解为 A = U Σ U H A=U\Sigma U^H A=UΣUH,其中 U = [ u 1 u 2 ⋯ u n ] U=\begin{bmatrix}u_1&u_2&\cdots&u_n\end{bmatrix} U=[u1u2un] Σ = d i a g ( λ 1 , λ 2 , ⋯   , λ n ) \Sigma=diag(\lambda_1,\lambda_2,\cdots,\lambda_n) Σ=diag(λ1,λ2,,λn),则 ∀ x ≠ 0 , U H x ≠ 0 , x H A x = ( U H x ) H Σ ( U H x ) = ∑ i = 1 n λ i ∣ u i H x ∣ 2 > 0 \forall x\neq 0,U^Hx\neq 0,x^HAx=(U^Hx)^H\Sigma (U^Hx)=\sum_{i=1}^n\lambda_i|u_i^Hx|^2>0 x=0,UHx=0,xHAx=(UHx)HΣ(UHx)=i=1nλiuiHx2>0,故A正定。
    【推论】若A正定,根据A的行列式等于A的特征值之积,有 d e t ( A ) > 0 det(A)>0 det(A)>0,故A可逆
  • 定理2:A半正定的充要条件为A的特征值都非负
    证明:与上同理。

顺序主子式、主子式判定

  • 定理3:A正定的充要条件为A的所有顺序主子式都大于零
    证明:
    必要性:对任意 0 ≠ x k ∈ C k 0\neq x_k\in C^k 0=xkCk,有 x = [ x k 0 n − k ] ≠ 0 x=\begin{bmatrix}x_k\\0_{n-k}\end{bmatrix}\neq 0 x=[xk0nk]=0 , x H A x = x k H A ( 1 2 ⋯ k 1 2 ⋯ k ) x k > 0 ,x^HAx=x_k^HA\begin{pmatrix}1&2&\cdots&k\\1&2&\cdots&k\end{pmatrix}x_k>0 ,xHAx=xkHA(1122kk)xk>0,故 A ( 1 2 ⋯ k 1 2 ⋯ k ) A\begin{pmatrix}1&2&\cdots&k\\1&2&\cdots&k\end{pmatrix} A(1122kk)正定,其行列式大于零,即A的顺序主子式大于零。
    充分性:思路是从二次型着手,使用数学归纳法,对n进行归纳(n为A的阶数)。
    n = 1 n=1 n=1时,显然结论成立。假定结论对n-1成立,现证明结论对n也成立:
    设A的Hermite二次型为 f ( x ) = x H A x = ∑ i = 1 n ∑ j = 1 n a i j x ‾ i x j , 0 ≠ x ∈ C n f(x)=x^HAx=\sum_{i=1}^n \sum_{j=1}^na_{ij} \overline x_ix_j,0\neq x\in C^n f(x)=xHAx=i=1nj=1naijxixj,0=xCn,由已知 a i j a_{ij} aij a j i a_{ji} aji互为共轭,且 a 11 > 0 a_{11}>0 a11>0,故可将 f ( x ) f(x) f(x)写成如下形式: f ( x ) = 1 a 11 ∑ i = 1 n a ‾ 1 i x ‾ i ∑ j = 1 n a 1 j x j + ∑ i = 2 n ∑ j = 2 n b i j x ‾ i x j f(x)=\frac{1}{a_{11}} \sum_{i=1}^n \overline a_{1i} \overline x_i \sum_{j=1}^na_{1j}x_j+\sum_{i=2}^n \sum_{j=2}^nb_{ij} \overline x_ix_j f(x)=a111i=1na1ixij=1na1jxj+i=2nj=2nbijxixj其中 b i j = a i j − 1 a 11 a ‾ 1 i a 1 j b_{ij}=a_{ij}-\frac{1}{a_{11}} \overline a_{1i}a_{1j} bij=aija111a1ia1j,满足 b ‾ i j = b j i \overline b_{ij}=b_{ji} bij=bji。记 g ( x ) = 1 a 11 ∑ i = 1 n a ‾ 1 i x ‾ i ∑ j = 1 n a 1 j x j = 1 a 11 ∣ ∑ j = 1 n a 1 j x j ∣ 2 ⩾ 0 g(x)=\frac{1}{a_{11}} \sum_{i=1}^n \overline a_{1i} \overline x_i \sum_{j=1}^na_{1j}x_j=\frac{1}{a_{11}}|\sum_{j=1}^na_{1j}x_j|^2\geqslant 0 g(x)=a111i=1na1ixij=1na1jxj=a111j=1na1jxj20。当 x 1 ≠ 0 x_1\neq 0 x1=0 x 2 = x 3 = . . . = x n = 0 x_2=x_3=...=x_n=0 x2=x3=...=xn=0时, f ( x ) = g ( x ) = ∣ a 11 x 1 ∣ 2 a 11 > 0 f(x)=g(x)=\frac{|a_{11}x_1|^2}{a_{11}}\gt 0 f(x)=g(x)=a11a11x12>0。如果能够证明当 x 2 , x 3 , . . . , x n x_2,x_3,...,x_n x2,x3,...,xn不全为零时,二次型 f ( x ) − g ( x ) = ∑ i = 2 n ∑ j = 2 n b i j x ‾ i x j > 0 f(x)-g(x)=\sum_{i=2}^n \sum_{j=2}^nb_{ij} \overline x_ix_j\gt 0 f(x)g(x)=i=2nj=2nbijxixj>0,此时就有 f ( x ) = g ( x ) + ( f ( x ) − g ( x ) ) ⩾ f ( x ) − g ( x ) > 0 f(x)=g(x)+(f(x)-g(x))\geqslant f(x)-g(x)>0 f(x)=g(x)+(f(x)g(x))f(x)g(x)>0。这样的话 ∀ x ≠ 0 \forall x\neq 0 x=0,都有 f ( x ) > 0 f(x)>0 f(x)>0,于是结论便成立。
    现在证明当 x 2 , x 3 , . . . , x n x_2,x_3,...,x_n x2,x3,...,xn不全为零时, f ( x ) − g ( x ) > 0 f(x)-g(x)>0 f(x)g(x)>0。考虑对A的任意k阶顺序主子式进行如下变换:
    在这里插入图片描述
    由已知 Δ k > 0 \Delta_k>0 Δk>0 a 11 > 0 a_{11}>0 a11>0,因此
    在这里插入图片描述
    也就是说,Hermite二次型 ∑ i = 2 n ∑ j = 2 n b i j x ‾ i x j \sum_{i=2}^n \sum_{j=2}^nb_{ij} \overline x_ix_j i=2nj=2nbijxixj的矩阵(是n-1阶的)的任意顺序主子式均为正。由归纳假设知二次型 ∑ i = 2 n ∑ j = 2 n b i j x ‾ i x j \sum_{i=2}^n \sum_{j=2}^nb_{ij} \overline x_ix_j i=2nj=2nbijxixj是正定的,故当 x 2 , x 3 , . . . , x n x_2,x_3,...,x_n x2,x3,...,xn不全为零时, ∑ i = 2 n ∑ j = 2 n b i j x ‾ i x j > 0 \sum_{i=2}^n \sum_{j=2}^nb_{ij} \overline x_ix_j>0 i=2nj=2nbijxixj>0。得证。

  • 定理4:A正定的充要条件为A的所有主子式都大于零
    证明:
    必要性:设 1 ⩽ i 1 < i 2 < ⋯ < i k ⩽ n 1\leqslant i_1\lt i_2\lt \cdots \lt i_k\leqslant n 1i1<i2<<ikn Π = { i 1 , i 2 , . . . , i k } \Pi = \{i_1,i_2,...,i_k\} Π={i1,i2,...,ik},对任意 0 ≠ y ∈ C k 0\neq y\in C^k 0=yCk,构造 x ∈ C n x\in C^n xCn,其分量 x j x_j xj满足若 j ∉ Π j\notin \Pi j/Π x j = 0 x_j=0 xj=0,若 j ∈ Π j\in \Pi jΠ x j = y d x_j=y_{d} xj=yd,其中 j = i d j=i_d j=id 1 ⩽ d ⩽ k 1\leqslant d\leqslant k 1dk。则 x H A x = y H A ( i 1 i 2 ⋯ i k i 1 i 2 ⋯ i k ) y > 0 x^HAx=y^HA\begin{pmatrix}i_1&i_2&\cdots&i_k\\i_1&i_2&\cdots&i_k\end{pmatrix}y>0 xHAx=yHA(i1i1i2i2ikik)y>0,故 A ( i 1 i 2 ⋯ i k i 1 i 2 ⋯ i k ) A\begin{pmatrix}i_1&i_2&\cdots&i_k\\i_1&i_2&\cdots&i_k\end{pmatrix} A(i1i1i2i2ikik)正定,其行列式大于零,即A的主子式大于零。
    充分性:A的所有主子式大于零,故A的所有顺序主子式大于零,由定理3便知A正定。

  • 定理5:A半正定的充要条件为A的所有主子式都非负
    证明:
    必要性:与上同理。
    充分性:使用摄动法。任取 k = 1 , 2 , . . . , n k=1,2,...,n k=1,2,...,n,设 A k = A ( 1 2 ⋯ k 1 2 ⋯ k ) A_k=A\begin{pmatrix}1&2&\cdots&k\\1&2&\cdots&k\end{pmatrix} Ak=A(1122kk),由已知 A k A_k Ak的所有主子式非负(注意 A k A_k Ak的主子式都是 A A A的主子式)。 ∀ t > 0 \forall t>0 t>0 d e t ( t I + A k ) = t k + p 1 t k − 1 + p 2 t k − 2 + . . . + p k − 1 t + p k det(tI+A_k)=t^k+p_1t^{k-1}+p_2t^{k-2}+...+p_{k-1}t+p_k det(tI+Ak)=tk+p1tk1+p2tk2+...+pk1t+pk,其中系数 p i ( i = 1 , 2 , . . . , k ) p_i(i=1,2,...,k) pi(i=1,2,...,k) A k A_k Ak的所有 i i i阶主子式之和,有 p i ⩾ 0 p_i\geqslant 0 pi0,故 d e t ( t I + A k ) ⩾ t k > 0 det(tI+A_k)\geqslant t^k>0 det(tI+Ak)tk>0。也就是说 t I + A tI+A tI+A的所有顺序主子式大于零,于是根据定理3知道 t I + A tI+A tI+A正定。 ∀ 0 ≠ x ∈ C n , x H ( t I + A ) x > 0 \forall 0\neq x\in C^n,x^H(tI+A)x>0 0=xCn,xH(tI+A)x>0,令 t → 0 + t\rightarrow 0^+ t0+就有 x H A x ⩾ 0 x^HAx\geqslant 0 xHAx0,故A半正定。
    【注1】A的全部顺序主子式非负并不能保证A是半正定的,例如如下反例: A = [ 0 0 0 1 0 0 1 0 0 1 0 0 1 0 0 0 ] A=\begin{bmatrix}0&0&0&1\\0&0&1&0\\0&1&0&0\\1&0&0&0\end{bmatrix} A=0001001001001000其各阶顺序主子式分别为0,0,0,1,但存在 x = ( 1 , 0 , 0 , − 1 ) T x=(1,0,0,-1)^T x=(1,0,0,1)T,有 x T A x = − 2 < 0 x^TAx=-2<0 xTAx=2<0,故A不是半正定的。
    【注2】证明中用到了 d e t ( t I + A k ) det(tI+A_k) det(tI+Ak)的展开式,展开式的证明可参考矩阵论(补充知识):特征多项式的展开式

【从共轭相合的角度判定】

  • 定理6:若A与B相合,则A正定等价于B正定
    证明:
    由相合的定义,存在可逆矩阵P使得 B = P H A P B=P^HAP B=PHAP,若A正定,则 ∀ x ≠ 0 , P x ≠ 0 , x H B x = ( P x ) H A ( P x ) > 0 \forall x\neq 0, Px\neq 0,x^HBx=(Px)^HA(Px)>0 x=0,Px=0,xHBx=(Px)HA(Px)>0,故B正定。同理可证若B正定,则A正定。
  • 定理7:若A与B相合,则A半正定等价于B半正定
    证明:同上。
  • 定理8:A正定的充要条件为A与同阶单位阵相合
    证明:
    必要性:设A的一个谱分解为 A = U Σ U H , Σ = d i a g ( λ 1 , λ 2 , ⋯   , λ n ) A=U\Sigma U^H,\Sigma=diag(\lambda_1,\lambda_2,\cdots,\lambda_n) A=UΣUH,Σ=diag(λ1,λ2,,λn),则由A正定知 λ i > 0 , i = 1 , 2 , . . . , n \lambda_i>0,i=1,2,...,n λi>0,i=1,2,...,n。设 P = U Σ ^ − 1 P=U\hat\Sigma^{-1} P=UΣ^1,其中 Σ ^ = d i a g ( λ 1 , λ 2 , ⋯   , λ n ) \hat\Sigma=diag(\sqrt{\lambda_1},\sqrt{\lambda_2},\cdots,\sqrt{\lambda_n}) Σ^=diag(λ1 ,λ2 ,,λn ),则P可逆,且 A = ( P P H ) − 1 A=(PP^H)^{-1} A=(PPH)1 P H A P = I P^HAP=I PHAP=I,故A与同阶单位阵I相合。
    充分性:若A与同阶单位阵I相合,则存在可逆矩阵P使得 P H A P = I P^HAP=I PHAP=I,即 A = ( P − 1 ) H P − 1 A=(P^{-1})^HP^{-1} A=(P1)HP1,对 ∀ x ≠ 0 \forall x\neq 0 x=0 P − 1 x ≠ 0 P^{-1}x\neq 0 P1x=0 x H A x = ( P − 1 x ) H ( P − 1 x ) = ∣ ∣ P − 1 x ∣ ∣ 2 2 > 0 x^HAx=(P^{-1}x)^H(P^{-1}x)=||P^{-1}x||_2^2>0 xHAx=(P1x)H(P1x)=P1x22>0,故A正定。
  • 定理9:A半正定的充要条件为A与 [ I r O O O ] \begin{bmatrix}I_r&O\\O&O\end{bmatrix} [IrOOO]相合,其中 r = r ( A ) r=r(A) r=r(A)
    证明:
    必要性:设A的一个谱分解为 A = U Σ U H , Σ = d i a g ( λ 1 , λ 2 , ⋯   , λ r , 0 , ⋯   , 0 ) A=U\Sigma U^H,\Sigma=diag(\lambda_1,\lambda_2,\cdots,\lambda_r,0,\cdots,0) A=UΣUH,Σ=diag(λ1,λ2,,λr,0,,0) λ i > 0 , i = 1 , 2 , . . . , r \lambda_i>0,i=1,2,...,r λi>0,i=1,2,...,r。设 P = U Λ − 1 P=U\Lambda^{-1} P=UΛ1,其中 Λ = d i a g ( λ 1 , λ 2 , ⋯   , λ r , 1 , . . . , 1 ) \Lambda=diag(\sqrt{\lambda_1},\sqrt{\lambda_2},\cdots,\sqrt{\lambda_r},1,...,1) Λ=diag(λ1 ,λ2 ,,λr ,1,...,1),则P可逆,且 A = ( P H ) − 1 [ I r O O O ] P − 1 A=(P^H)^{-1}\begin{bmatrix}I_r&O\\O&O\end{bmatrix}P^{-1} A=(PH)1[IrOOO]P1 P H A P = [ I r O O O ] P^HAP=\begin{bmatrix}I_r&O\\O&O\end{bmatrix} PHAP=[IrOOO],故A与 [ I r O O O ] \begin{bmatrix}I_r&O\\O&O\end{bmatrix} [IrOOO]相合。
    充分性:若A与 [ I r O O O ] \begin{bmatrix}I_r&O\\O&O\end{bmatrix} [IrOOO]相合,则存在可逆矩阵P使得 P H A P = [ I r O O O ] P^HAP=\begin{bmatrix}I_r&O\\O&O\end{bmatrix} PHAP=[IrOOO],即 A = ( P − 1 ) H [ I r O O O ] P − 1 A=(P^{-1})^H\begin{bmatrix}I_r&O\\O&O\end{bmatrix}P^{-1} A=(P1)H[IrOOO]P1,对 ∀ x ≠ 0 \forall x\neq 0 x=0 P − 1 x ≠ 0 P^{-1}x\neq 0 P1x=0 x H A x = ( P − 1 x ) H [ I r O O O ] ( P − 1 x ) = ∑ i = 1 r ∣ ( P − 1 x ) i ∣ 2 ⩾ 0 x^HAx=(P^{-1}x)^H\begin{bmatrix}I_r&O\\O&O\end{bmatrix}(P^{-1}x)=\sum_{i=1}^r|(P^{-1}x)_i|^2\geqslant 0 xHAx=(P1x)H[IrOOO](P1x)=i=1r(P1x)i20,其中 ( P − 1 x ) i (P^{-1}x)_i (P1x)i表示向量 P − 1 x P^{-1}x P1x的第 i i i个分量,故A半正定。

【其他充要条件】

  • 定理10:A正定的充要条件为存在同阶可逆矩阵C使得 A = C H C A=C^HC A=CHC
    证明:显然这是定理8一个等价表述。
  • 定理11:A半正定的充要条件为存在秩为 r ( A ) r(A) r(A)的同阶方阵C,使得 A = C H C A=C^HC A=CHC成立
    证明:
    必要性:设A的一个谱分解为 A = U Σ U H , Σ = d i a g ( λ 1 , λ 2 , ⋯   , λ r , 0 , . . . , 0 ) , λ i > 0 , i = 1 , 2 , . . . , r , r = r ( A ) A=U\Sigma U^H,\Sigma=diag(\lambda_1,\lambda_2,\cdots,\lambda_r,0,...,0),\lambda_i>0,i=1,2,...,r,r=r(A) A=UΣUH,Σ=diag(λ1,λ2,,λr,0,...,0),λi>0,i=1,2,...,r,r=r(A)。设 C = ( U Σ ^ ) H C=(U\hat\Sigma)^H C=(UΣ^)H,其中 Σ ^ = d i a g ( λ 1 , λ 2 , ⋯   , λ r , 0 , . . , 0 ) \hat\Sigma=diag(\sqrt{\lambda_1},\sqrt{\lambda_2},\cdots,\sqrt{\lambda_r},0,..,0) Σ^=diag(λ1 ,λ2 ,,λr ,0,..,0),则 r ( C ) = r ( A ) r(C)=r(A) r(C)=r(A),且 A = C H C A=C^HC A=CHC
    充分性:若 A = C H C A=C^HC A=CHC,则 ∀ x ≠ 0 \forall x\neq 0 x=0 x H A x = ( C x ) H ( C x ) = ∣ ∣ C x ∣ ∣ 2 2 ⩾ 0 x^HAx=(Cx)^H(Cx)=||Cx||_2^2\geqslant 0 xHAx=(Cx)H(Cx)=Cx220,故A半正定。
  • 定理12:A正定的充要条件为存在列满秩矩阵P使得 A = P H P A=P^HP A=PHP
    必要性:与上同理。
    充分性:若 A = P H P A=P^HP A=PHP,则 ∀ x ≠ 0 \forall x\neq 0 x=0,由P列满秩知 P x ≠ 0 Px\neq 0 Px=0(否则由P列满秩知其左伪逆 L = ( P H P ) − 1 P H L=(P^HP)^{-1}P^H L=(PHP)1PH存在, P x = 0 ⇒ x = L P x = 0 Px=0\Rightarrow x=LPx=0 Px=0x=LPx=0,矛盾), x H A x = ( P x ) H ( P x ) = ∣ ∣ P x ∣ ∣ 2 2 > 0 x^HAx=(Px)^H(Px)=||Px||_2^2\gt 0 xHAx=(Px)H(Px)=Px22>0,故A正定。
  • 定理13:A半正定的充要条件为存在秩为 r ( A ) r(A) r(A)的矩阵P,使得 A = P H P A=P^HP A=PHP成立
    证明:与上同理。
  • 定理14:A正定的充要条件为存在同阶正定矩阵C使得 A = C 2 A=C^2 A=C2
    证明:
    必要性:设A的一个谱分解为 A = U Σ U H , Σ = d i a g ( λ 1 , λ 2 , ⋯   , λ n ) A=U\Sigma U^H,\Sigma=diag(\lambda_1,\lambda_2,\cdots,\lambda_n) A=UΣUH,Σ=diag(λ1,λ2,,λn),则由A正定知 λ i > 0 , i = 1 , 2 , . . . , n \lambda_i>0,i=1,2,...,n λi>0,i=1,2,...,n。设 C = U Σ ^ U H C=U\hat\Sigma U^H C=UΣ^UH,其中 Σ ^ = d i a g ( λ 1 , λ 2 , ⋯   , λ n ) \hat\Sigma=diag(\sqrt{\lambda_1},\sqrt{\lambda_2},\cdots,\sqrt{\lambda_n}) Σ^=diag(λ1 ,λ2 ,,λn ),则由C共轭对称且特征值都大于零知C是正定矩阵,且验证可知 A = C 2 A=C^2 A=C2成立。
    充分性:若 A = C 2 A=C^2 A=C2,由C正定知C可逆,故 ∀ x ≠ 0 \forall x\neq 0 x=0,有 C x ≠ 0 Cx\neq 0 Cx=0 x H A x = x H C C x = x H C H C x = ∣ ∣ C x ∣ ∣ 2 2 > 0 x^HAx=x^HCCx=x^HC^HCx=||Cx||^2_2>0 xHAx=xHCCx=xHCHCx=Cx22>0,故A正定。
  • 定理15:A半正定的充要条件为存在同阶半正定矩阵C使得 A = C 2 A=C^2 A=C2
    证明:与上同理。
  • 定理16:A正定的充要条件为存在同阶可逆的Hermite矩阵C使得 A = C 2 A=C^2 A=C2
    证明:与上同理。
  • 定理17:A半正定的充要条件为存在同阶Hermite矩阵C使得 A = C 2 A=C^2 A=C2
    证明:与上同理。
其他性质

以下均设 A , B ∈ C n × n A,B\in C^{n\times{n}} A,BCn×n,A,B均为共轭对称矩阵(Hermite矩阵)。

  • 定理18:
    (1)若A正定,则 P H A P P^HAP PHAP正定的充要条件为P列满秩
    证明:
    因A正定,根据定理10知存在可逆矩阵C使得 A = C H C A=C^HC A=CHC
    必要性:由 P H A P = ( C P ) H ( C P ) P^HAP=(CP)^H(CP) PHAP=(CP)H(CP)正定知 ( C P ) H ( C P ) (CP)^H(CP) (CP)H(CP)满秩,而 r ( C P ) = r ( ( C P ) H ( C P ) ) r(CP)=r((CP)^H(CP)) r(CP)=r((CP)H(CP)),所以 C P CP CP列满秩,所以P列满秩。
    充分性:由P列满秩知 C P CP CP列满秩,故存在列满秩矩阵 C P CP CP使得 P H A P = ( C P ) H ( C P ) P^HAP=(CP)^H(CP) PHAP=(CP)H(CP),由定理12知 P H A P P^HAP PHAP正定。
    (2)若A半正定,则 P H A P P^HAP PHAP半正定,其中矩阵P任取
    证明:
    因A半正定,根据定理11知存在方阵C使得 A = C H C A=C^HC A=CHC P H A P = ( C P ) H ( C P ) P^HAP=(CP)^H(CP) PHAP=(CP)H(CP) ∀ x ∈ C n , x H P H A P x = ∣ ∣ C P x ∣ ∣ 2 2 ⩾ 0 \forall x\in C^n,x^HP^HAPx=||CPx||_2^2\geqslant 0 xCn,xHPHAPx=CPx220,故 P H A P P^HAP PHAP半正定。

  • 定理19:
    (1)若A正定,则A的主对角元均为正实数
    证明:对 i = 1 , 2... , n i=1,2...,n i=1,2...,n,取单位矩阵的第 i i i e i e_i ei,有 e i H A e i = a i i > 0 e_i^HAe_i=a_{ii}>0 eiHAei=aii>0
    【注】实际上,A的主对角元都是A的主子式,故定理4蕴含了A的主对角元都大于零这一事实。
    (2)若A半正定,则A的主对角元均为非负实数
    证明:与上同理。

  • 定理20:(用定义验证即可)
    (1)若A正定,常数 k > 0 k\gt 0 k>0,则 k A kA kA正定
    (2)若A半正定,常数 k ⩾ 0 k\geqslant 0 k0,则 k A kA kA半正定

  • 定理21:(用定义验证即可)
    (1)若A,B均正定,则 A + B A+B A+B正定
    (2)若A正定,B半正定,则 A + B A+B A+B正定
    (3)若A,B均半正定,则 A + B A+B A+B半正定

  • 定理22
    (1)若A正定,则 A − 1 A^{-1} A1也正定
    证明:因为A是Hermite的,所以 A − 1 A^{-1} A1也是Hermite的。 ∀ x ≠ 0 \forall x\neq 0 x=0,有 A − 1 x ≠ 0 , x H A − 1 x = x H A − 1 A A − 1 x = ( A − 1 x ) H A ( A − 1 x ) > 0 A^{-1}x\neq 0,x^HA^{-1}x=x^HA^{-1}AA^{-1}x=(A^{-1}x)^HA(A^{-1}x)>0 A1x=0,xHA1x=xHA1AA1x=(A1x)HA(A1x)>0,故 A − 1 A^{-1} A1正定。
    (2)若A半正定,则 A + A^+ A+也半正定,其中 A + A^+ A+ A A A的Penrose-Moore逆
    证明:设A的一个谱分解为 A = U Σ U H , Σ = d i a g ( λ 1 , λ 2 , ⋯   , λ r , 0 , . . . , 0 ) , λ i > 0 , i = 1 , 2 , . . . , r A=U\Sigma U^H,\Sigma=diag(\lambda_1,\lambda_2,\cdots,\lambda_r,0,...,0),\lambda_i>0,i=1,2,...,r A=UΣUH,Σ=diag(λ1,λ2,,λr,0,...,0),λi>0,i=1,2,...,r,易验证 A + = U Σ + U H A^+=U\Sigma^+U^H A+=UΣ+UH,其中 Σ + = d i a g ( λ 1 − 1 , λ 2 − 1 , ⋯   , λ r − 1 , 0 , . . . , 0 ) \Sigma^+=diag(\lambda_1^{-1},\lambda_2^{-1},\cdots,\lambda_r^{-1},0,...,0) Σ+=diag(λ11,λ21,,λr1,0,...,0),可见 A + A^+ A+是特征值均非负的Hermite矩阵,故 A + A^+ A+半正定。

  • 定理23:
    (1) A ∈ C n × n A\in C^{n\times n} ACn×n B ∈ C m × m B\in C^{m\times m} BCm×m均正定的充要条件为 [ A O O B ] \begin{bmatrix}A&O\\O&B\end{bmatrix} [AOOB]正定
    证明:
    必要性: [ A O O B ] \begin{bmatrix}A&O\\O&B\end{bmatrix} [AOOB]显然Hermite。 ∀ 0 ≠ z ∈ C n + m , z = [ x y ] \forall 0\neq z\in C^{n+m},z=\begin{bmatrix}x\\y\end{bmatrix} 0=zCn+m,z=[xy] x ∈ C n , y ∈ C m x\in C^n, y\in C^m xCn,yCm,则 x , y x,y x,y至少有一个不为零,故 z H [ A O O B ] z = x H A x + y H B y > 0 z^H\begin{bmatrix}A&O\\O&B\end{bmatrix}z=x^HAx+y^HBy>0 zH[AOOB]z=xHAx+yHBy>0,故 [ A O O B ] \begin{bmatrix}A&O\\O&B\end{bmatrix} [AOOB]正定。
    充分性:设 P = [ I O ] P=\begin{bmatrix}I\\O\end{bmatrix} P=[IO],显然P列满秩,于是由定理18知 A = P H [ A O O B ] P A=P^H\begin{bmatrix}A&O\\O&B\end{bmatrix}P A=PH[AOOB]P正定。同理,设 Q = [ O I ] Q=\begin{bmatrix}O\\I\end{bmatrix} Q=[OI],Q列满秩, B = Q H [ A O O B ] Q B=Q^H\begin{bmatrix}A&O\\O&B\end{bmatrix}Q B=QH[AOOB]Q正定。
    (2) A ∈ C n × n A\in C^{n\times n} ACn×n B ∈ C m × m B\in C^{m\times m} BCm×m均半正定的充要条件为 [ A O O B ] \begin{bmatrix}A&O\\O&B\end{bmatrix} [AOOB]半正定
    证明:
    必要性: [ A O O B ] \begin{bmatrix}A&O\\O&B\end{bmatrix} [AOOB]显然Hermite。 z ∈ C n + m , z = [ x y ] z\in C^{n+m},z=\begin{bmatrix}x\\y\end{bmatrix} zCn+m,z=[xy] x ∈ C n , y ∈ C m x\in C^n, y\in C^m xCn,yCm z H [ A O O B ] z = x H A x + y H B y ⩾ 0 z^H\begin{bmatrix}A&O\\O&B\end{bmatrix}z=x^HAx+y^HBy\geqslant 0 zH[AOOB]z=xHAx+yHBy0,故 [ A O O B ] \begin{bmatrix}A&O\\O&B\end{bmatrix} [AOOB]半正定。
    充分性:设 P = [ I O ] P=\begin{bmatrix}I\\O\end{bmatrix} P=[IO],故由定理18知 A = P H [ A O O B ] P A=P^H\begin{bmatrix}A&O\\O&B\end{bmatrix}P A=PH[AOOB]P半正定。同理,设 Q = [ O I ] Q=\begin{bmatrix}O\\I\end{bmatrix} Q=[OI] B = Q H [ A O O B ] Q B=Q^H\begin{bmatrix}A&O\\O&B\end{bmatrix}Q B=QH[AOOB]Q半正定。

  • 定理24
    (1)设A为一Hermite矩阵,存在 t ∈ R t\in R tR,使得 ∀ s > t \forall s>t s>t s I + A sI+A sI+A正定
    证明:
    因A共轭对称,故可设A的一个谱分解为 A = U Σ U H A=U\Sigma U^H A=UΣUH Σ = d i a g ( λ 1 , λ 2 , ⋯   , λ n ) , λ i \Sigma=diag(\lambda_1,\lambda_2,\cdots,\lambda_n),\lambda_i Σ=diag(λ1,λ2,,λn),λi均为实数。 t I + A = U ( t I + Σ ) U H tI+A=U(tI+\Sigma)U^H tI+A=U(tI+Σ)UH,故只要取 t = − m i n { λ 1 , λ 2 , . . . , λ n } t=-min\{\lambda_1,\lambda_2,...,\lambda_n\} t=min{λ1,λ2,...,λn} ∀ s > t \forall s>t s>t s I + A sI+A sI+A的特征值就都为正,故 s I + A sI+A sI+A正定。
    (2)若A半正定,则 ∀ s > 0 \forall s>0 s>0 s I + A sI+A sI+A正定
    证明:在(1)的证明中取 t = 0 t=0 t=0即可。

  • 定理25
    (1)若A,B均正定,且 A B = B A AB=BA AB=BA,则AB正定
    证明:
    ( A B ) H = ( B A ) H = A H B H = A B (AB)^H=(BA)^H=A^HB^H=AB (AB)H=(BA)H=AHBH=AB A B AB AB是共轭对称的。
    因A正定,由定理14知存在同阶正定矩阵C使得 A = C 2 A=C^2 A=C2 C C C可逆, C − 1 A B C = C B C C^{-1}ABC=CBC C1ABC=CBC,即 A B AB AB C B C CBC CBC相似,故它们的特征值相同。由 C B C = C H B C CBC=C^HBC CBC=CHBC,故 C B C CBC CBC B B B相合,由B正定及定理6知 C B C CBC CBC正定,故 C B C CBC CBC的特征值均为正,进而 A B AB AB的特征值均为正,故 A B AB AB正定。
    (2)若A正定,B半正定,且 A B = B A AB=BA AB=BA,则AB半正定
    证明:与上同理。
    (3)若A,B均半正定,且 A B = B A AB=BA AB=BA,则AB半正定
    证明:使用摄动法
    ( A B ) H = ( B A ) H = A H B H = A B (AB)^H=(BA)^H=A^HB^H=AB (AB)H=(BA)H=AHBH=AB A B AB AB是共轭对称的。
    ∀ t > 0 \forall t>0 t>0 t I + A tI+A tI+A正定,又 ( t I + A ) B = B ( t I + A ) (tI+A)B=B(tI+A) (tI+A)B=B(tI+A),故由(2)知 ( t I + A ) B (tI+A)B (tI+A)B半正定。故 ∀ x ∈ C n , x H ( t I + A ) B x ⩾ 0 \forall x\in C^n,x^H(tI+A)Bx\geqslant 0 xCn,xH(tI+A)Bx0,即 t x H B x + x H A B x ⩾ 0 , ∀ t > 0 tx^HBx+x^HABx\geqslant 0,\forall t>0 txHBx+xHABx0,t>0。令 t → 0 + t\rightarrow 0^+ t0+就有 x H A B x ⩾ 0 x^HABx\geqslant 0 xHABx0。注意到 x x x是任取的,故 A B AB AB半正定。


矩阵的算数平方根

存在性与唯一性

那天看到二次范数的概念:设 P P P正定, ∣ ∣ x ∣ ∣ P = ∣ ∣ P − 1 2 x ∣ ∣ 2 ||x||_P=||P^{-\frac{1}{2} }x||_2 xP=P21x2,很好奇这个 P − 1 2 P^{-\frac{1}{2}} P21是什么。在网上查了下资料,其实与非负实数的算数平方根是类似的。设 P − 1 = U d i a g ( λ 1 , λ 2 , . . . , λ n ) U H P^{-1}=Udiag(\lambda_1,\lambda_2,...,\lambda_n) U^H P1=Udiag(λ1,λ2,...,λn)UH,,则 C = U d i a g ( λ 1 , λ 2 , . . . , λ n ) U H C=Udiag(\sqrt{\lambda_1},\sqrt{\lambda_2},...,\sqrt{\lambda_n}) U^H C=Udiag(λ1 ,λ2 ,...,λn )UH满足 C 2 = P − 1 C^2=P^{-1} C2=P1(定理14的结论)。问题在于满足 C 2 = P − 1 C^2=P^{-1} C2=P1的C是否是唯一的?如果C不唯一,显然 P − 1 2 P^{-\frac{1}{2}} P21这样的表示是不合理的,因为会产生歧义。事实上,C是唯一的,下面就来看看为什么:

  • 定义:设有n阶方阵A,若存在n阶方阵B使得 A = B 2 A=B^2 A=B2,则称B是A的一个平方根
  • 定义:设有n阶半正定矩阵A,若存在n阶半正定矩阵B使得 A = B 2 A=B^2 A=B2,则称B是A的一个算数平方根
  • 引理:设n阶共轭对称矩阵A,B有相同的特征值,且任取它们的一个特征值 λ \lambda λ,A的特征子空间 N ( λ I − A ) N(\lambda I-A) N(λIA)与B特征子空间 N ( λ I − B ) N(\lambda I-B) N(λIB)相同,即 N ( λ I − A ) = N ( λ I − B ) N(\lambda I-A)=N(\lambda I-B) N(λIA)=N(λIB),那么 A = B A=B A=B成立。
    证明:
    设A的一个谱分解为 A = P Σ P H A=P\Sigma P^H A=PΣPH Σ = d i a g ( λ 1 , λ 2 , . . . , λ n ) \Sigma=diag(\lambda_1,\lambda_2,...,\lambda_n) Σ=diag(λ1,λ2,...,λn) P = [ p 1 p 2 ⋯ p n ] P=\begin{bmatrix}p_1&p_2&\cdots&p_n\end{bmatrix} P=[p1p2pn]。根据已知条件, P P P的任意一列 p i p_i pi也是 B B B对应于 λ i \lambda_i λi的特征向量。则 P H B P = [ p 1 H p 2 H ⋯ p n H ] B [ p 1 p 2 ⋯ p n ] = [ p 1 H p 2 H ⋯ p n H ] [ λ 1 p 1 λ 2 p 2 ⋯ λ n p n ] = d i a g ( λ 1 , λ 2 , . . . , λ n ) \begin{aligned}P^HBP&=\begin{bmatrix}p_1^H\\p_2^H\\\cdots\\p_n^H\end{bmatrix}B\begin{bmatrix}p_1&p_2&\cdots&p_n\end{bmatrix}\\&=\begin{bmatrix}p_1^H\\p_2^H\\\cdots\\p_n^H\end{bmatrix}\begin{bmatrix}\lambda_1p_1&\lambda_2p_2&\cdots&\lambda_np_n\end{bmatrix}\\&=diag(\lambda_1,\lambda_2,...,\lambda_n)\end{aligned} PHBP=p1Hp2HpnHB[p1p2pn]=p1Hp2HpnH[λ1p1λ2p2λnpn]=diag(λ1,λ2,...,λn) B = P Σ P H = A B=P\Sigma P^H=A B=PΣPH=A
  • 定理26:任意半正定矩阵A有唯一的算数平方根
    证明:
    存在性根据定理14得到。现证明唯一性:
    设有半正定矩阵B,C满足 A = B 2 = C 2 A=B^2=C^2 A=B2=C2。设B的谱分解为 B = P Σ P H B=P\Sigma P^H B=PΣPH,其中 Σ = d i a g ( λ 1 , λ 2 , . . . , λ n ) , 0 ⩽ λ 1 ⩽ λ 2 ⩽ ⋯ ⩽ λ n \Sigma=diag(\lambda_1,\lambda_2,...,\lambda_n),0\leqslant\lambda_1\leqslant \lambda_2\leqslant \cdots\leqslant \lambda_n Σ=diag(λ1,λ2,...,λn),0λ1λ2λn。则 B 2 = P Σ 2 P H = A B^2=P\Sigma^2P^H=A B2=PΣ2PH=A,这是A的一个谱分解,说明 ∀ i = 1 , 2 , . . . , n \forall i=1,2,...,n i=1,2,...,n N ( λ i I − B ) = N ( λ i 2 I − A ) N(\lambda_i I-B)=N(\lambda^2_i I-A) N(λiIB)=N(λi2IA)。同理,设C的谱分解为 C = Q Σ ^ Q H C=Q\hat\Sigma Q^H C=QΣ^QH,其中 Σ ^ = d i a g ( λ ^ 1 , λ ^ 2 , . . . , λ ^ n ) , 0 ⩽ λ ^ 1 ⩽ λ ^ 2 ⩽ ⋯ ⩽ λ ^ n \hat\Sigma=diag(\hat\lambda_1,\hat\lambda_2,...,\hat\lambda_n),0\leqslant\hat\lambda_1\leqslant \hat\lambda_2\leqslant \cdots\leqslant \hat\lambda_n Σ^=diag(λ^1,λ^2,...,λ^n),0λ^1λ^2λ^n。则 C 2 = Q Σ ^ 2 Q H = A C^2=Q\hat\Sigma^2Q^H=A C2=QΣ^2QH=A,这是A的一个谱分解,说明 ∀ i = 1 , 2 , . . . , n \forall i=1,2,...,n i=1,2,...,n N ( λ ^ i I − C ) = N ( λ ^ i 2 I − A ) N(\hat\lambda_i I-C)=N(\hat\lambda^2_i I-A) N(λ^iIC)=N(λ^i2IA)
    注意到 Σ 2 \Sigma^2 Σ2 Σ ^ 2 \hat\Sigma^2 Σ^2的主对角线上都是将A的特征值从小到大排列,因此有 Σ 2 = Σ ^ 2 \Sigma^2=\hat\Sigma^2 Σ2=Σ^2,故 ∀ i = 1 , 2 , . . . , n \forall i=1,2,...,n i=1,2,...,n λ i 2 = λ ^ i 2 \lambda_i^2=\hat\lambda_i^2 λi2=λ^i2,即 λ i = λ ^ i \lambda_i=\hat\lambda_i λi=λ^i(注意,半正定矩阵的特征值非负)。结合前面的讨论, ∀ i = 1 , 2 , . . . , n \forall i=1,2,...,n i=1,2,...,n N ( λ i I − B ) = N ( λ i 2 I − A ) = N ( λ ^ i 2 I − A ) = N ( λ ^ i I − C ) N(\lambda_i I-B)=N(\lambda^2_i I-A)=N(\hat\lambda^2_i I-A)=N(\hat\lambda_i I-C) N(λiIB)=N(λi2IA)=N(λ^i2IA)=N(λ^iIC),于是根据引理的结论必有 B = C B=C B=C

由算数平方根的存在性与唯一性,我们可以引入记号 A 1 2 A^{\frac{1}{2}} A21(或 A \sqrt A A )表示半正定矩阵A的算数平方根。

  • 推论:任意正定矩阵A有唯一的算数平方根 A 1 2 A^{\frac{1}{2}} A21,且 A 1 2 A^{\frac{1}{2}} A21是正定的
推广:矩阵的有理数次幂

对上述结论稍作推广,使用完全相同的证明方式就可以得到如下结论:

  • 定理27:设有n阶(半)正定矩阵 A A A,对任意正整数 k k k,存在唯一的(半)正定矩阵 B B B使得 A = B k A=B^k A=Bk,记作 B = A 1 k B=A^{\frac{1}{k}} B=Ak1

这说明半正定矩阵可以开任意正整数次方。再进一步,我们很容易据此定义出半正定矩阵的任意正有理数次方:设 α = p q > 0 \alpha=\frac{p}{q}>0 α=qp>0为有理数,其中 p , q p,q p,q为互质正整数,则半正定矩阵 A A A α \alpha α次方 A α A^\alpha Aα定义为 A α = ( A p ) 1 q A^\alpha=(A^p)^\frac{1}{q} Aα=(Ap)q1。注意 ( A 1 q ) p q = ( ( A 1 q ) q ) p = A p (A^\frac{1}{q})^{pq}=((A^\frac{1}{q})^q)^p=A^p (Aq1)pq=((Aq1)q)p=Ap,两边同时开 q q q次方就有 ( A 1 q ) p = ( A p ) 1 q (A^\frac{1}{q})^p=(A^p)^\frac{1}{q} (Aq1)p=(Ap)q1,因此 A α = ( A p ) 1 q = ( A 1 q ) p A^\alpha=(A^p)^\frac{1}{q}=(A^\frac{1}{q})^p Aα=(Ap)q1=(Aq1)p
可以验证半正定矩阵的正有理数次幂运算有如下运算律:(以下设 A A A B B B是同阶半正定矩阵, α , β > 0 \alpha,\beta>0 α,β>0是正有理数)

  • A α + β = A α A β A^{\alpha+\beta}=A^\alpha A^\beta Aα+β=AαAβ
  • A α β = ( A α ) β = ( A β ) α A^{\alpha\beta}=(A^{\alpha})^\beta=(A^\beta)^\alpha Aαβ=(Aα)β=(Aβ)α
  • ( U A U H ) α = U A α U H (UAU^H)^\alpha=UA^\alpha U^H (UAUH)α=UAαUH,其中 U U U是与 A A A同阶的酋矩阵

如果 A A A B B B可交换(即满足 A B = B A AB=BA AB=BA),根据一些深入的分析可以知道 A A A B B B可以同时酋对角化(关于这一点可以参考Roger A Horn的《矩阵分析》),于是有如下运算律

  • ( A B ) α = A α B α (AB)^\alpha=A^\alpha B^\alpha (AB)α=AαBα
    【注】这里简要地证明一下:设 A , B A,B A,B的谱分解为 A = U Σ 1 U H , B = U Σ 2 U H A=U\Sigma_1U^H,B=U\Sigma_2 U^H A=UΣ1UH,B=UΣ2UH,则 ( A B ) α = ( U Σ 1 Σ 2 U H ) α = U ( Σ 1 Σ 2 ) α U H = U Σ 1 α Σ 2 α U H = ( U Σ 1 α U H ) ( U Σ 2 α U H ) = ( U Σ 1 U H ) α ( U Σ 2 U H ) α = A α B α (AB)^\alpha=(U\Sigma_1\Sigma_2 U^H)^\alpha=U(\Sigma_1\Sigma_2)^\alpha U^H=U\Sigma_1^\alpha\Sigma_2^\alpha U^H=(U\Sigma_1^\alpha U^H)(U\Sigma_2^\alpha U^H)=(U\Sigma_1U^H)^\alpha(U\Sigma_2 U^H)^\alpha=A^\alpha B^\alpha (AB)α=(UΣ1Σ2UH)α=U(Σ1Σ2)αUH=UΣ1αΣ2αUH=(UΣ1αUH)(UΣ2αUH)=(UΣ1UH)α(UΣ2UH)α=AαBα

如果 A A A正定,根据定理22知 A − 1 A^{-1} A1也正定,于是可以推广到正定矩阵的任意有理数次幂:

  • 当有理数 α > 0 \alpha>0 α>0时, A − α = ( A − 1 ) α A^{-\alpha}=(A^{-1})^\alpha Aα=(A1)α

可见半正定矩阵的有理数次幂与实数的幂的性质十分相似。下面从另一个角度考虑Hermite矩阵与实数之间的关系。
实数之间是可以比大小的(实数集上的大小关系是一个全序关系),那我们自然要问,矩阵是否可以比大小?实际上,我们可以利用半正定矩阵可以定义出Hermite矩阵集合上的一个偏序关系,然而,这样定义出来的偏序关系并不是全序关系。也就是说,Hermite矩阵之间不一定能比大小,但如果两个Hermite矩阵可以比大小,那么它们之间的关系就很像两个实数之间的关系,就会有很多类似的性质。下面就介绍Hermite矩阵集上的这个偏序关系:线性矩阵不等式。


矩阵不等式

  • 定义:设A,B为同阶共轭对称矩阵(Hermite矩阵),若 A − B A-B AB是正定的,则记 A > B A>B A>B;若 A − B A-B AB是半正定的,则记 A ⩾ B A\geqslant B AB
    【注1】只要有 > > > ⩾ \geqslant 就够了,不过也可以引入 < < < ⩽ \leqslant
    【注2】依照上面的定义,Hernite矩阵A正定就是 A > O A>O A>O,Hermite矩阵半正定就是 A ⩾ O A\geqslant O AO
    【注3】 ⩾ \geqslant 满足自反性、反对称性以及传递性(见下文),因此根据偏序关系的定义(参考链接), ⩾ \geqslant 定义了Hermite矩阵集上的一个偏序关系。

以下均设A,B,C,D为同阶Hermite矩阵
【注】类比实数比大小的性质,下面的性质就比较直观了。

  • 基本性质(以下只讨论 ⩾ \geqslant > \gt >的讨论是类似的)
    • 自反性: A ⩾ A A\geqslant A AA
      (这是因为 A − A = O A-A=O AA=O是半正定的)
    • 反对称性:若 A ⩾ B A\geqslant B AB B ⩾ A B\geqslant A BA,则 A = B A=B A=B
      证:
      由已知 A − B A-B AB既半正定又半负定,它的任意特征值既不小于零又不大于零,只能为零。 A − B A-B AB是Hermite矩阵,可作谱分解 A − B = U Σ U H A-B=U\Sigma U^H AB=UΣUH,对角阵 Σ \Sigma Σ对角线上全为零,故 A − B = O A-B=O AB=O A = B A=B A=B
    • 传递性:若 A ⩾ B A\geqslant B AB B ⩾ C B\geqslant C BC,则 A ⩾ C A\geqslant C AC
      证:
      由已知 A − B A-B AB B − C B-C BC半正定,于是 ∀ x ≠ 0 \forall x\neq 0 x=0 x H ( A − B ) x ⩾ 0 x^H(A-B)x\geqslant 0 xH(AB)x0 x H ( B − C ) x ⩾ 0 x^H(B-C)x\geqslant 0 xH(BC)x0 x H ( A − C ) x = x H ( A − B ) x + x H ( B − C ) x ⩾ 0 x^H(A-C)x=x^H(A-B)x+x^H(B-C)x\geqslant 0 xH(AC)x=xH(AB)x+xH(BC)x0,故 A ⩾ C A\geqslant C AC
    • 线性性:若 A ⩾ B A\geqslant B AB,实数 k ⩾ 0 k\geqslant 0 k0,则 k A ⩾ k B kA\geqslant kB kAkB
    • 可加性:若 A ⩾ B A\geqslant B AB C ⩾ D C\geqslant D CD,则 A + C ⩾ B + D A+C\geqslant B+D A+CB+D
      证明:
      由已知 A − B , C − D A-B,C-D AB,CD半正定,故 ( A + C ) − ( B + D ) = ( A − B ) + ( C − D ) (A+C)-(B+D)=(A-B)+(C-D) (A+C)(B+D)=(AB)+(CD)半正定,即 A + C ⩾ B + D A+C\geqslant B+D A+CB+D
  • 其他常用性质
    • 定理28:
      (1)设 P P P列满秩,则 A > B    ⟺    P H A P > P H B P A>B\iff P^HAP>P^HBP A>BPHAP>PHBP
      证明:根据定理18可得。
      (2)若 A ⩾ B A\geqslant B AB,则任意矩阵P有 P H A P ⩾ P H B P P^HAP\geqslant P^HBP PHAPPHBP
      证明:根据定理18可得。
      (3)设有可逆矩阵 P P P,则 A > B ( A ⩾ B ) A>B(A\geqslant B) A>B(AB)的充要条件为 P H A P > P H B P ( P H A P ⩾ P H B P ) P^HAP>P^HBP(P^HAP\geqslant P^HBP) PHAP>PHBP(PHAPPHBP)
      证明:根据定理6和定理7可得。
    • 定理29:
      (1)若 A > B > O A>B>O A>B>O A B = B A AB=BA AB=BA,则 A 2 > B 2 A^2>B^2 A2>B2
      证明:
      A B = B A AB=BA AB=BA,故 A 2 − B 2 = ( A − B ) ( A + B ) = ( A + B ) ( A − B ) A^2-B^2=(A-B)(A+B)=(A+B)(A-B) A2B2=(AB)(A+B)=(A+B)(AB)。由 A > B > O A>B>O A>B>O A − B > O , A + B > O A-B>O,A+B>O AB>O,A+B>O,根据定理25知 A 2 − B 2 = ( A − B ) ( A + B ) > O A^2-B^2=(A-B)(A+B)>O A2B2=(AB)(A+B)>O
      (2)若 A ⩾ B > O A\geqslant B>O AB>O A B = B A AB=BA AB=BA,则 A 2 ⩾ B 2 A^2\geqslant B^2 A2B2
      证明:
      A B = B A AB=BA AB=BA,故 A 2 − B 2 = ( A − B ) ( A + B ) = ( A + B ) ( A − B ) A^2-B^2=(A-B)(A+B)=(A+B)(A-B) A2B2=(AB)(A+B)=(A+B)(AB)。由 A ⩾ B > O A\geqslant B>O AB>O A − B ⩾ O , A + B > O A-B\geqslant O,A+B>O ABO,A+B>O,根据定理25知 A 2 − B 2 = ( A − B ) ( A + B ) ⩾ O A^2-B^2=(A-B)(A+B)\geqslant O A2B2=(AB)(A+B)O
      (3)若 A > B ⩾ O A>B\geqslant O A>BO A B = B A AB=BA AB=BA,则 A 2 ⩾ B 2 A^2\geqslant B^2 A2B2
      证明:与上同理。
      (4)若 A ⩾ B ⩾ O A\geqslant B\geqslant O ABO A B = B A AB=BA AB=BA,则 A 2 ⩾ B 2 A^2\geqslant B^2 A2B2
      证明:与上同理。
    • 引理:若 B > O B>O B>O,则存在可逆矩阵 P P P使得 P H B P = I , P H A P = Σ P^HBP=I,P^HAP=\Sigma PHBP=I,PHAP=Σ,其中 Σ \Sigma Σ为对角阵
      证明:
      由定理8知,存在可逆矩阵 C C C使得 C H B C = I C^HBC=I CHBC=I。考虑Hermite矩阵 C H A C C^HAC CHAC的一个谱分解 C H A C = Q Σ Q H C^HAC=Q\Sigma Q^H CHAC=QΣQH,令 P = C Q P=CQ P=CQ,则有 P H B P = Q H ( C H B C ) Q = I , P H A P = Q H ( C H A C ) Q = Σ P^HBP=Q^H(C^HBC)Q=I,P^HAP=Q^H(C^HAC)Q=\Sigma PHBP=QH(CHBC)Q=I,PHAP=QH(CHAC)Q=Σ。得证。
      【注】 Σ \Sigma Σ的对角元实际上是广义特征值问题 A x = λ B x Ax=\lambda Bx Ax=λBx的特征值。广义特征值这里不做介绍,感兴趣的读者可参考维基百科
    • 定理30:
      (1)若 A > B > O A>B>O A>B>O,则 B − 1 > A − 1 B^{-1}>A^{-1} B1>A1
      证明:
      由引理知,存在一可逆矩阵 R R R使得 R H A R = Σ , R H B R = I R^HAR=\Sigma,R^HBR=I RHAR=Σ,RHBR=I,其中 Σ = d i a g ( λ 1 , λ 2 , . . . , λ n ) \Sigma=diag(\lambda_1,\lambda_2,...,\lambda_n) Σ=diag(λ1,λ2,...,λn)
      A > B A>B A>B以及定理28知, R H ( A − B ) R = Σ − I > O R^H(A-B)R=\Sigma -I>O RH(AB)R=ΣI>O。对角矩阵 Σ − I \Sigma -I ΣI的主对角元为正,故 λ i > 1 , i = 1 , 2 , . . . , n \lambda_i >1,i=1,2,...,n λi>1,i=1,2,...,n 1 − λ i − 1 > 0 1-\lambda_i^{-1}>0 1λi1>0,进而 I − Σ − 1 > O I-\Sigma^{-1}>O IΣ1>O R ( I − Σ − 1 ) R H = B − 1 − A − 1 > O R(I-\Sigma^{-1})R^H=B^{-1}-A^{-1}>O R(IΣ1)RH=B1A1>O,即 B − 1 > A − 1 B^{-1}>A^{-1} B1>A1
      (2)若 A ⩾ B > O A\geqslant B>O AB>O,则 B − 1 ⩾ A − 1 B^{-1}\geqslant A^{-1} B1A1
      证明:与上同理。
    • 定理31:若 A ⩾ O , B > O A\geqslant O,B>O AO,B>O ρ ( ∙ ) \rho(\bullet) ρ()表示谱半径,则
      (1) B > A B>A B>A的充要条件为 ρ ( A B − 1 ) < 1 \rho(AB^{-1})<1 ρ(AB1)<1
      (2) B ⩾ A B\geqslant A BA的充要条件为 ρ ( A B − 1 ) ⩽ 1 \rho(AB^{-1})\leqslant 1 ρ(AB1)1
      证明:只证(1),(2)的证明是同理的。
      由引理知,存在一可逆矩阵 R R R使得 R H A R = Σ , R H B R = I R^HAR=\Sigma,R^HBR=I RHAR=Σ,RHBR=I,其中 Σ = d i a g ( λ 1 , λ 2 , . . . , λ n ) \Sigma=diag(\lambda_1,\lambda_2,...,\lambda_n) Σ=diag(λ1,λ2,...,λn)
      由定理28知 B > A    ⟺    R H B R > R H A R    ⟺    I > Σ    ⟺    ρ ( Σ ) < 1 B>A\iff R^HBR>R^HAR\iff I>\Sigma\iff\rho(\Sigma)<1 B>ARHBR>RHARI>Σρ(Σ)<1。计算可得 A B − 1 = ( R H ) − 1 Σ R H AB^{-1}=(R^H)^{-1}\Sigma R^H AB1=(RH)1ΣRH,即 A B − 1 AB^{-1} AB1 Σ \Sigma Σ相似,有 ρ ( A B − 1 ) = ρ ( Σ ) \rho(AB^{-1})=\rho(\Sigma) ρ(AB1)=ρ(Σ),故 B > A    ⟺    ρ ( A B − 1 ) < 1 B>A\iff\rho(AB^{-1})<1 B>Aρ(AB1)<1
常用的矩阵不等式举例
Hermite矩阵的一个不等式
  • 定理32:对任意n阶Hermite矩阵 A A A,有如下矩阵不等式成立: λ m i n I ⩽ A ⩽ λ m a x I \lambda_{min}I\leqslant A\leqslant\lambda_{max}I λminIAλmaxI其中, λ m i n \lambda_{min} λmin λ m a x \lambda_{max} λmax分别是 A A A的最小特征值和最大特征值
    证明:
    A A A作谱分解得 A = U Σ U H A=U\Sigma U^H A=UΣUH,其中 Σ = d i a g ( λ 1 , λ 2 , . . . , λ n ) \Sigma=diag(\lambda_1,\lambda_2,...,\lambda_n) Σ=diag(λ1,λ2,...,λn)。注意到Hermite矩阵 A − λ m i n I = U Σ U H − λ m i n I = U ( Σ − λ m i n I ) U H = U d i a g ( λ 1 − λ m i n , λ 2 − λ m i n , . . . , λ n − λ m i n ) U H A-\lambda_{min}I=U\Sigma U^H-\lambda_{min}I=U(\Sigma -\lambda_{min}I)U^H=Udiag(\lambda_1-\lambda_{min},\lambda_2-\lambda_{min},...,\lambda_n-\lambda_{min})U^H AλminI=UΣUHλminI=U(ΣλminI)UH=Udiag(λ1λmin,λ2λmin,...,λnλmin)UH,其特征值均非负,故 A − λ m i n I A-\lambda_{min}I AλminI是半正定的,即 λ m i n I ⩽ A \lambda_{min}I\leqslant A λminIA。同理可证 A ⩽ λ m a x I A\leqslant\lambda_{max}I AλmaxI

下面只是用这个结论解决一下自己在学习凸优化时的疑问,当做一个学习记录,读者可选择性地跳过这一段^_^。

用这个结论解决一下最近学习凸优化过程中遇到的一个问题:无约束凸优化问题的牛顿下降法的二次收敛阶段有一个关键不等式:在这里插入图片描述
它的证明用到如下过程:在这里插入图片描述
其中最后一个不等号让人百思不得其解。最后发现用矩阵不等式就可以得到。先给出牛顿法证明的前提条件:强凸性条件,即对于二阶连续可微的凸函数 f ( x ) f(x) f(x),其任意点处的Hessian矩阵满足 ∇ 2 f ( x ) ⩾ m I \nabla^2f(x)\geqslant mI 2f(x)mI,其中 m > 0 m>0 m>0是一个常数。利用矩阵不等式的结论对上述最后一个不等号进行分析:
由于 ∇ 2 f ( x ) ⩾ m I > O \nabla^2f(x)\geqslant mI>O 2f(x)mI>O,所以 O < ( ∇ 2 f ( x ) ) − 1 ⩽ 1 m I O<(\nabla^2f(x))^{-1}\leqslant \frac{1}{m}I O<(2f(x))1m1I(定理30)。因为 ( ∇ 2 f ( x ) ) − 1 ( m I ) = ( m I ) ( ∇ 2 f ( x ) ) − 1 = m ( ∇ 2 f ( x ) ) − 1 (\nabla^2f(x))^{-1}(mI)=(mI)(\nabla^2f(x))^{-1}=m(\nabla^2f(x))^{-1} (2f(x))1(mI)=(mI)(2f(x))1=m(2f(x))1,所以 ( ∇ 2 f ( x ) ) − 2 ⩽ 1 m 2 I (\nabla^2f(x))^{-2}\leqslant\frac{1}{m^2}I (2f(x))2m21I(定理29)。于是 ∇ f ( x ) T ( ∇ 2 f ( x ) ) − 2 ∇ f ( x ) ⩽ ∇ f ( x ) T ( 1 m 2 I ) ∇ f ( x ) = 1 m 2 ∇ f ( x ) T ∇ f ( x ) \nabla f(x)^T(\nabla^2f(x))^{-2}\nabla f(x)\leqslant\nabla f(x)^T(\frac{1}{m^2}I)\nabla f(x)=\frac{1}{m^2}\nabla f(x)^T\nabla f(x) f(x)T(2f(x))2f(x)f(x)T(m21I)f(x)=m21f(x)Tf(x)(矩阵不等式的定义与半正定矩阵的定义),故最后一个不等号成立。

分块矩阵的Schur补定理

该定理在控制理论分析中有重要应用。不过没想到的是,第一次碰见这个定理是在上《复杂网络动力学》的时候~作为一个计算机系学生始终不知道为什么要上这种课。。。
证明需要用到分块矩阵的初等变换,也就是“矩阵打洞法”,不清楚的童鞋请参考链接中的初等变换部分。

  • 定理33:设 A = [ R 11 R 12 R 21 R 22 ] ∈ C n × n A=\begin{bmatrix}R_{11}&R_{12}\\R_{21}&R_{22}\end{bmatrix}\in C^{n\times n} A=[R11R21R12R22]Cn×n是一个Hermite矩阵,其中 R 11 ∈ C m 1 × m 1 R_{11}\in C^{m_1\times m_1} R11Cm1×m1 R 22 ∈ C m 2 × m 2 R_{22}\in C^{m_2\times m_2} R22Cm2×m2 R 12 H = R 21 R_{12}^H=R_{21} R12H=R21 m 1 + m 2 = n m_1+m_2=n m1+m2=n。则有以下结论成立:
    (1) A > O A>O A>O的充要条件为 R 11 > O R_{11}>O R11>O R 22 − R 12 H R 11 − 1 R 12 > O R_{22}-R_{12}^HR_{11}^{-1}R_{12}>O R22R12HR111R12>O
    (2) A > O A>O A>O的充要条件为 R 22 > O R_{22}>O R22>O R 11 − R 12 H R 22 − 1 R 12 > O R_{11}-R_{12}^HR_{22}^{-1}R_{12}>O R11R12HR221R12>O
    证明:只证(1),(2)的证明是类似的。
    充分性:
    R 11 R_{11} R11正定知 R 11 R_{11} R11可逆,故可做如下初等变换:
    A = [ R 11 R 12 R 12 H R 22 ] → 行变换 [ R 11 R 12 O R 22 − R 12 H R 11 − 1 R 12 ] → 列变换 [ R 11 O O R 22 − R 12 H R 11 − 1 R 12 ] A=\begin{bmatrix}R_{11}&R_{12}\\R_{12}^H&R_{22}\end{bmatrix}\overset{\text{行变换}}{\rightarrow}\begin{bmatrix}R_{11}&R_{12}\\O&R_{22}-R_{12}^HR_{11}^{-1}R_{12}\end{bmatrix}\overset{\text{列变换}}{\rightarrow}\begin{bmatrix}R_{11}&O\\O&R_{22}-R_{12}^HR_{11}^{-1}R_{12}\end{bmatrix} A=[R11R12HR12R22]行变换[R11OR12R22R12HR111R12]列变换[R11OOR22R12HR111R12]
    将上述初等变换用分块初等矩阵写出就是
    [ I m 1 O − R 12 H R 11 − 1 I m 2 ] [ R 11 R 12 R 12 H R 22 ] [ I m 1 − R 11 − 1 R 12 O I m 2 ] = [ R 11 O O R 22 − R 12 H R 11 − 1 R 12 ] \begin{bmatrix}I_{m_1}&O\\-R_{12}^HR_{11}^{-1}&I_{m_2}\end{bmatrix}\begin{bmatrix}R_{11}&R_{12}\\R_{12}^H&R_{22}\end{bmatrix}\begin{bmatrix}I_{m_1}&-R_{11}^{-1}R_{12}\\O&I_{m_2}\end{bmatrix}=\begin{bmatrix}R_{11}&O\\O&R_{22}-R_{12}^HR_{11}^{-1}R_{12}\end{bmatrix} [Im1R12HR111OIm2][R11R12HR12R22][Im1OR111R12Im2]=[R11OOR22R12HR111R12]
    P = [ I m 1 − R 11 − 1 R 12 O I m 2 ] , S = R 22 − R 12 H R 11 − 1 R 12 P=\begin{bmatrix}I_{m_1}&-R_{11}^{-1}R_{12}\\O&I_{m_2}\end{bmatrix},S=R_{22}-R_{12}^HR_{11}^{-1}R_{12} P=[Im1OR111R12Im2],S=R22R12HR111R12,则上式即为
    P H A P = [ R 11 O O S ] P^HAP=\begin{bmatrix}R_{11}&O\\O&S\end{bmatrix} PHAP=[R11OOS]由已知及定理23知分块矩阵 P H A P P^HAP PHAP是正定的,注意到 P P P是可逆的,故由定理6知 A A A是正定的。
    必要性:
    A A A正定可知主子矩阵 R 11 R_{11} R11正定(可参考定理3的必要性的证明),从而 R 11 R_{11} R11可逆,上述初等变换仍成立。从而由定理23、定理6可知 S S S是正定的,故 R 11 R_{11} R11 S S S均正定。
    【注】 R 22 − R 12 H R 11 − 1 R 12 R_{22}-R_{12}^HR_{11}^{-1}R_{12} R22R12HR111R12称为子块 R 11 R_{11} R11Schur补,记作 A / R 11 A/R_{11} A/R11 R 11 − R 12 H R 22 − 1 R 12 R_{11}-R_{12}^HR_{22}^{-1}R_{12} R11R12HR221R12称为子块 R 22 R_{22} R22Schur补,记作 A / R 22 A/R_{22} A/R22

矩阵不等式的一个应用:瑞利商和广义瑞利商

最近看到LDA(线性判别分析)算法的推导中用到了瑞利商和广义瑞利商的概念,求它们的最大值或最小值的问题可以用矩阵不等式解决,恰好放在这里作为一个应用矩阵不等式和矩阵算数平方根的例子。

瑞丽商
  • 定义:设有Hermite矩阵 A ∈ C n × n A\in C^{n\times n} ACn×n和非零向量 x ∈ C n x\in C^n xCn A A A x x x的瑞利商 R ( A , x ) R(A,x) R(A,x)定义为: R ( A , x ) = x H A x x H x R(A,x)=\frac{x^HAx}{x^Hx} R(A,x)=xHxxHAx
    【注】实际中遇到的情形往往是实数域下的, A A A为实对称矩阵,这种情形只是我们接下来讨论的结论的一个特例。

接下来讨论给定Hermite矩阵 A A A时,瑞利商的最大值和最小值。
前面提到了,对任意Hermite矩阵 A A A,有矩阵不等式 λ m i n I ⩽ A ⩽ λ m a x I \lambda_{min}I\leqslant A\leqslant\lambda_{max}I λminIAλmaxI,其中, λ m i n \lambda_{min} λmin λ m a x \lambda_{max} λmax分别是 A A A的最小特征值和最大特征值。于是 λ m i n = x H ( λ m i n I ) x x H x ⩽ x H A x x H x ⩽ x H ( λ m a x I ) x x H x = λ m a x \lambda_{min}=\frac{x^H(\lambda_{min}I)x}{x^Hx}\leqslant\frac{x^HAx}{x^Hx}\leqslant\frac{x^H(\lambda_{max}I)x}{x^Hx}=\lambda_{max} λmin=xHxxH(λminI)xxHxxHAxxHxxH(λmaxI)x=λmax容易验证当 x x x A A A对应于特征值 λ m i n \lambda_{min} λmin的一个特征向量时,瑞利商取得最小值 λ m i n \lambda_{min} λmin;同理当 x x x A A A对应于特征值 λ m a x \lambda_{max} λmax的一个特征向量时,瑞利商取得最大值 λ m a x \lambda_{max} λmax

广义瑞丽商
  • 定义:设有Hermite矩阵 A , B ∈ C n × n A,B\in C^{n\times n} A,BCn×n和非零向量 x ∈ C n x\in C^n xCn A , B A,B A,B x x x的广义瑞利商 R ( A , B , x ) R(A,B,x) R(A,B,x)定义为: R ( A , B , x ) = x H A x x H B x R(A,B,x)=\frac{x^HAx}{x^HBx} R(A,B,x)=xHBxxHAx其中, x H B x ≠ 0 x^HBx\neq 0 xHBx=0

后文我们将分析得到如下结论:

  • 结论:设Hermite矩阵 A , B ∈ C n × n A,B\in C^{n\times n} A,BCn×n,其中 B B B正定,则 λ m i n ⩽ R ( A , B , x ) ⩽ λ m a x \lambda_{min}\leqslant R(A,B,x)\leqslant \lambda_{max} λminR(A,B,x)λmax其中 λ m i n \lambda_{min} λmin λ m a x \lambda_{max} λmax分别是 B − 1 A B^{-1}A B1A的最小特征值和最大特征值(也是 B − 1 2 A B − 1 2 B^{-\frac{1}{2}}AB^{-\frac{1}{2}} B21AB21的最小特征值和最大特征值);
    x x x B − 1 A B^{-1}A B1A对应于 λ m i n \lambda_{min} λmin的一个特征向量时, R ( A , B , x ) R(A,B,x) R(A,B,x)取得最小值 λ m i n \lambda_{min} λmin
    x x x B − 1 A B^{-1}A B1A对应于 λ m a x \lambda_{max} λmax的一个特征向量时, R ( A , B , x ) R(A,B,x) R(A,B,x)取得最大值 λ m a x \lambda_{max} λmax

以下是分析过程。

根据定义,瑞利商可以视作广义瑞利商的一个特例( B B B取单位矩阵)。而广义瑞丽商的最值问题可以通过将广义瑞丽商转化为瑞丽商解决
先将广义瑞丽商等价地写成 R ( A , B , x ) = x H A x x H x x H B x x H x R(A,B,x)=\frac{\frac{x^HAx}{x^Hx}}{\frac{x^HBx}{x^Hx}} R(A,B,x)=xHxxHBxxHxxHAx分子和分母分别是一个瑞丽商。注意到分母 x H B x x H x \frac{x^HBx}{x^Hx} xHxxHBx B B B是不定矩阵时可能取到零,而分子 x H A x x H x \frac{x^HAx}{x^Hx} xHxxHAx无论如何都是有界的(根据瑞丽商的结论),因此当 B B B是不定矩阵时, R ( A , B , x ) R(A,B,x) R(A,B,x)可能取到正无穷或负无穷(即不存在最大值或最小值)。为使得 R ( A , B , x ) R(A,B,x) R(A,B,x)有最大值和最小值,我们将 B B B限定为正定矩阵或负定矩阵,以保证当 x ≠ 0 x\neq 0 x=0时, x H B x ≠ 0 x^HBx\neq 0 xHBx=0
接下来只讨论 B B B正定的情况, B B B负定的情形是类似的。
由前面矩阵算数平方根的结论知, B B B存在唯一的算数平方根 B 1 2 B^{\frac{1}{2}} B21,且 B 1 2 B^{\frac{1}{2}} B21是正定的。于是 R ( A , B , x ) R(A,B,x) R(A,B,x)可以写成 R ( A , B , x ) = x H A x x H B 1 2 B 1 2 x = x H A x x H ( B 1 2 ) H B 1 2 x R(A,B,x)=\frac{x^HAx}{x^HB^{\frac{1}{2}}B^{\frac{1}{2}}x}=\frac{x^HAx}{x^H(B^{\frac{1}{2}})^HB^{\frac{1}{2}}x} R(A,B,x)=xHB21B21xxHAx=xH(B21)HB21xxHAx作变量代换 y = B 1 2 x y=B^{\frac{1}{2}}x y=B21x,则 R ( A , B , x ) R(A,B,x) R(A,B,x)可以写成 R ( A , B , x ) = y H ( B − 1 2 ) H A B − 1 2 y y H y = y H B − 1 2 A B − 1 2 y y H y = R ( B − 1 2 A B − 1 2 , y ) R(A,B,x)=\frac{y^H(B^{-\frac{1}{2}})^HAB^{-\frac{1}{2}}y}{y^Hy}=\frac{y^HB^{-\frac{1}{2}}AB^{-\frac{1}{2}}y}{y^Hy}=R(B^{-\frac{1}{2}}AB^{-\frac{1}{2}},y) R(A,B,x)=yHyyH(B21)HAB21y=yHyyHB21AB21y=R(B21AB21,y)注意正定阵 B 1 2 B^\frac{1}{2} B21是可逆的,因此 y = B 1 2 x y=B^{\frac{1}{2}}x y=B21x是等价代换,这就将广义瑞丽商等价转换成了瑞丽商。

根据瑞丽商的结论 , R ( A , B , x ) R(A,B,x) R(A,B,x)的最小值和最大值分别为 B − 1 2 A B − 1 2 B^{-\frac{1}{2}}AB^{-\frac{1}{2}} B21AB21的最小特征值和最大特征值,且当 y = B 1 2 x y=B^{\frac{1}{2}}x y=B21x分别取 B − 1 2 A B − 1 2 B^{-\frac{1}{2}}AB^{-\frac{1}{2}} B21AB21对应于最小特征值的特征向量和对应于最大特征值的特征向量时, R ( A , B , x ) R(A,B,x) R(A,B,x)取到最小值和最大值。

因为矩阵 B − 1 2 A B − 1 2 B^{-\frac{1}{2}}AB^{-\frac{1}{2}} B21AB21不易计算(要对 B − 1 B^{-1} B1进行开方),由 B − 1 2 ( B − 1 2 A B − 1 2 ) B 1 2 = B − 1 A B^{-\frac{1}{2}}(B^{-\frac{1}{2}}AB^{-\frac{1}{2}})B^{\frac{1}{2}}=B^{-1}A B21(B21AB21)B21=B1A B − 1 2 A B − 1 2 B^{-\frac{1}{2}}AB^{-\frac{1}{2}} B21AB21 B − 1 A B^{-1}A B1A是相似的,特征值相同,而 B − 1 A B^{-1}A B1A相对来说更容易计算,故可将上面的结论陈述为:
R ( A , B , x ) R(A,B,x) R(A,B,x)的最小值和最大值分别为 B − 1 A B^{-1}A B1A的最小特征值和最大特征值。 x x x取何值时 R ( A , B , x ) R(A,B,x) R(A,B,x)取到最小值和最大值呢?
y 1 y_1 y1 B − 1 2 A B − 1 2 B^{-\frac{1}{2}}AB^{-\frac{1}{2}} B21AB21对应于最小特征值的特征向量,即 B − 1 2 A B − 1 2 y 1 = λ m i n y 1 B^{-\frac{1}{2}}AB^{-\frac{1}{2}}y_1=\lambda_{min}y_1 B21AB21y1=λminy1 y 1 ≠ 0 y_1\neq 0 y1=0。根据变换 y = B 1 2 x y=B^{\frac{1}{2}}x y=B21x,将 y 1 = B 1 2 x 1 y_1=B^{\frac{1}{2}}x_1 y1=B21x1代入上式得 B − 1 2 A B − 1 2 B 1 2 x 1 = λ m i n B 1 2 x 1 B^{-\frac{1}{2}}AB^{-\frac{1}{2}}B^{\frac{1}{2}}x_1=\lambda_{min}B^{\frac{1}{2}}x_1 B21AB21B21x1=λminB21x1两端左乘 B − 1 2 B^{-\frac{1}{2}} B21 B − 1 A x 1 = λ m i n x 1 B^{-1}Ax_1=\lambda_{min}x_1 B1Ax1=λminx1可见 x 1 x_1 x1恰好是 B − 1 A B^{-1}A B1A对应于最小特征值的特征向量。于是当 x x x B − 1 A B^{-1}A B1A对应于最小特征值的特征向量时, R ( A , B , x ) R(A,B,x) R(A,B,x)取到最小值;当 x x x B − 1 A B^{-1}A B1A对应于最大特征值的特征向量时, R ( A , B , x ) R(A,B,x) R(A,B,x)取到最大值。

  • 32
    点赞
  • 136
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值