前言
在许多实际问题中,所产生的矩阵往往都是对称矩阵,比如我们耳熟能详的实对称矩阵也是重要的研究对象。以下就从实对称矩阵的角度出发,利用特征值的极小极大原理
,从普通特征值问题
A
x
=
λ
x
Ax=\lambda x
Ax=λx衍生到广义特征值问题
A
x
=
λ
B
x
Ax=\lambda Bx
Ax=λBx逐步讨论其特征值的性质。
【广义特征值问题】设 A = ( a i j ) ∈ R n × n A=(a_{ij})\in \mathbb{R}^{n\times n} A=(aij)∈Rn×n是 n n n阶
实对称
矩阵, B = ( b i j ) ∈ R n × n B=(b_{ij})\in \mathbb{R}^{n\times n} B=(bij)∈Rn×n是 n n n阶实对称正定
矩阵,使下式 A x = λ B x \mathbf{Ax=\lambda Bx} Ax=λBx 有非零解向量 x ∈ R n x\in \mathbb{R}^{n} x∈Rn,则称 λ \lambda λ是矩阵 A A A相对于矩阵 B B B的特征值,且 x x x是属于 λ \lambda λ的特征向量。该问题常见于振动理论。
我们可以发现
- 当
B
≠
I
B\not=I
B=I时,该问题是
广义特征值问题
- 当
B
=
I
B=I
B=I时,该问题是
普通特征值问题
思路:如何利用极小极大原理求第 k k k个特征值及奇异值?
利用极大极小原理,我们先确定 n n n阶实对称阵的最大最小特征值,然后逐步求第2大和第2小特征值进而归纳到求第 k k k大和第 k k k小特征值。
本文就对称矩阵特征值的极性与直积做以梳理,完整定理证明请参考西工大的《矩阵论》[1]。

文章目录
一、实对称矩阵的瑞利商与广义瑞利商性质
我们在讨论实对称矩阵的特征值时,往往会通过实对称阵的瑞利商来研究,因为瑞利商是由如下特征值问题推导出来的,它可以直接求出矩阵的特征值。
A
x
=
λ
x
⇒
x
T
A
x
=
λ
x
T
x
⇒
λ
=
x
T
A
x
x
T
x
=
R
(
x
)
Ax=\lambda x \Rightarrow x^TAx=\lambda x^Tx \Rightarrow \lambda=\frac{x^TAx}{x^Tx}=R(x)
Ax=λx⇒xTAx=λxTx⇒λ=xTxxTAx=R(x)
【瑞利商定义】设 A = ( a i j ) ∈ R n × n A=(a_{ij})\in \mathbb{R}^{n\times n} A=(aij)∈Rn×n是 n n n阶
实对称
矩阵, x ∈ R n x\in \mathbb{R}^{n} x∈Rn,则称下式为矩阵 A A A的瑞利商( Rayleigh \text{Rayleigh} Rayleigh商) R ( x ) = x T A x x T x ( x ≠ 0 ) \mathbf{R(x) = \frac{x^TAx}{x^Tx}} \quad (x\not=\mathbf{0}) R(x)=xTxxTAx(x=0)
【广义瑞利商定义】设 A = ( a i j ) ∈ R n × n , B = ( b i j ) ∈ R n × n A=(a_{ij})\in \mathbb{R}^{n\times n},B=(b_{ij})\in \mathbb{R}^{n\times n} A=(aij)∈Rn×n,B=(bij)∈Rn×n均是 n n n阶
实对称
矩阵,且 B B B正定
, x ∈ R n x\in \mathbb{R}^{n} x∈Rn,则称下式为矩阵 A A A相对于矩阵 B B B的广义瑞利商
R ( x ) = x T A x x T B x ( x ≠ 0 ) \mathbf{R(x) = \frac{x^TAx}{x^TBx}} \quad (x\not=\mathbf{0}) R(x)=xTBxxTAx(x=0)
- 【性质1】: R ( x ) R(x) R(x)是 x x x的连续函数
- 【性质2】:
R
(
x
)
R(x)
R(x)是
x
x
x的零次齐次函数(齐次性
R
(
k
x
)
=
R
(
x
)
R(kx)=R(x)
R(kx)=R(x))
事实上,对于任意实数 λ ≠ 0 \lambda \not=0 λ=0有下式分别满足齐次性和零次
R ( λ x ) = R ( x ) = λ 0 R ( x ) R(\lambda x)=R(x)=\lambda^0 R(x) R(λx)=R(x)=λ0R(x) - 【性质3】:当 x x x是由 x 0 ≠ 0 x_0\not=0 x0=0张成的空间时, R ( x ) R(x) R(x)是一常数
- 【性质4】: R ( x ) R(x) R(x)的最大最小值存在,且能够在单位球面 S = { x ∣ x ∈ R n , ∥ x ∥ 2 = 1 } S=\{x|x\in \mathbb{R}^n,\|x\|_2=1\} S={x∣x∈Rn,∥x∥2=1}上达到
- 【性质5】:非零向量
x
0
x_0
x0是
R
(
x
)
R(x)
R(x)的
驻点
⇔ x 0 \Leftrightarrow x_0 ⇔x0是 A x = λ B x Ax=\lambda Bx Ax=λBx的特征向量
,当 B = I B=I B=I时对应于瑞利商问题同理,通过矩阵求导可得
一般情况下,我们令实对称矩阵
A
A
A的特征值按从小到大顺序排列如下
λ
1
≤
λ
2
≤
.
.
.
≤
λ
n
\lambda_1 \le \lambda_2 \le... \le \lambda_n
λ1≤λ2≤...≤λn
对应标准正交特征向量系为
p
1
,
p
2
,
.
.
.
,
p
n
p_1,p_2,...,p_n
p1,p2,...,pn。
【定理】设 A = ( a i j ) ∈ R n × n A=(a_{ij})\in \mathbb{R}^{n\times n} A=(aij)∈Rn×n是 n n n阶
实对称
矩阵,则有 min x ≠ 0 R ( x ) = λ 1 , max x ≠ 0 R ( x ) = λ n , λ 1 ≤ R ( x ) ≤ λ n \mathbf{\min_{x\not=\mathbf{0}} R(x) = \lambda_1,\quad \max_{x\not=\mathbf{0}} R(x) = \lambda_n ,\quad \lambda_1 \le R(x) \le \lambda_n} x=0minR(x)=λ1,x=0maxR(x)=λn,λ1≤R(x)≤λn
【证明】任取
0
≠
x
∈
R
n
\mathbf{0}\not=x \in \mathbb{R}^n
0=x∈Rn,则有
x
=
c
1
p
1
+
c
2
p
2
+
.
.
.
+
c
n
p
n
(
c
1
2
+
c
2
2
+
.
.
.
+
c
n
2
≠
0
)
x=c_1p_1+c_2p_2+...+c_np_n \quad (c_1^2+c_2^2+...+c_n^2\not=0)
x=c1p1+c2p2+...+cnpn(c12+c22+...+cn2=0)
由于
p
1
,
p
2
,
.
.
.
,
p
n
p_1,p_2,...,p_n
p1,p2,...,pn是正交特征向量系,所以有
x
i
=
c
i
p
i
x_i=c_ip_i
xi=cipi
于是有
A
x
=
λ
x
=
λ
1
c
1
p
1
+
λ
2
c
2
p
2
+
.
.
.
+
λ
n
c
n
p
n
x
T
A
x
=
c
1
2
λ
1
+
c
2
2
λ
2
+
.
.
.
+
c
n
2
λ
n
x
T
x
=
c
1
2
+
c
2
2
+
.
.
.
+
c
n
2
\begin{aligned} Ax&=\lambda x=\lambda_1c_1p_1+\lambda_2c_2p_2+...+\lambda_nc_np_n\\ x^TAx & =c_1^2\lambda_1+c_2^2\lambda_2+...+c_n^2\lambda_n \\ x^Tx & =c_1^2+c_2^2+...+c_n^2 \\ \end{aligned}
AxxTAxxTx=λx=λ1c1p1+λ2c2p2+...+λncnpn=c12λ1+c22λ2+...+cn2λn=c12+c22+...+cn2
令
k
i
=
c
i
2
c
1
2
+
c
2
2
+
.
.
.
+
c
n
2
k_i=\frac{c_i^2}{c_1^2+c_2^2+...+c_n^2}
ki=c12+c22+...+cn2ci2,其中
k
1
+
k
2
+
.
.
.
+
k
n
=
1
k_1+k_2+...+k_n=1
k1+k2+...+kn=1,则有
R
(
x
)
=
x
T
A
x
x
T
x
=
k
1
λ
1
+
k
2
λ
2
+
.
.
.
+
k
n
λ
n
R(x) =\frac{x^TAx}{x^Tx}=k_1\lambda_1+k_2\lambda_2+...+k_n\lambda_n
R(x)=xTxxTAx=k1λ1+k2λ2+...+knλn
简单起见,假设
A
A
A是
2
2
2阶实对称阵,即仅有两个特征值
λ
1
,
λ
2
\lambda_1,\lambda_2
λ1,λ2满足
R
(
x
)
=
k
1
λ
1
+
k
2
λ
2
(
k
1
+
k
2
=
1
)
R(x)=k_1\lambda_1+k_2 \lambda_2\;(k_1+k_2=1)
R(x)=k1λ1+k2λ2(k1+k2=1),则如下图所示

从上图,我们可以清晰的看出
R
(
x
)
R(x)
R(x)是
x
x
x的连续函数
,该集合也被称为凸包
,由此可得
λ
1
≤
R
(
x
)
≤
λ
n
\lambda_1 \le R(x) \le \lambda_n
λ1≤R(x)≤λn
可以通过如下式子验证
R
(
p
1
)
=
λ
1
R(p_1)=\lambda_1
R(p1)=λ1
R
(
p
i
)
=
p
i
T
A
p
i
p
i
T
p
i
=
λ
i
R(p_i) =\frac{p_i^TAp_i}{p_i^Tp_i}=\lambda_i
R(pi)=piTpipiTApi=λi
有了
p
k
p_k
pk或
x
k
x_k
xk,我们可以直接求得第
k
k
k小特征值
λ
k
\lambda_k
λk。但问题来了,如果我们不知道
p
k
p_k
pk或者不想依赖于
x
k
x_k
xk,我们如何求得第
k
k
k小特征值
λ
k
\lambda_k
λk呢?这就需要下面一章的极小极大原理了。
【重要推论】若 λ 1 = . . . = λ k ( 1 ≤ k ≤ n ) \lambda_1=...=\lambda_k(1\le k \le n) λ1=...=λk(1≤k≤n),则在 ∥ x ∥ 2 = 1 \|x\|_2=1 ∥x∥2=1上, R ( x ) R(x) R(x)的所有极小点为 l 1 p 1 + l 2 p 2 + . . . + l k p k \mathbf{l_1p_1+l_2p_2+...+l_kp_k} l1p1+l2p2+...+lkpk 其中, l i ∈ R ( i = 1 , . . . , k ) l_i\in R(i=1,...,k) li∈R(i=1,...,k),且满足 l 1 2 + l 1 2 + . . + l k 2 = 1 l_1^2+l_1^2+..+l_k^2=1 l12+l12+..+lk2=1.
二、普通与广义特征值的极小极大原理
由上章,我们得到几个工具,令
V
n
=
span
{
x
1
,
x
2
,
.
.
.
,
x
n
}
(
λ
1
≤
λ
2
≤
.
.
.
≤
λ
n
)
V_n=\text{span}\{x_1,x_2,...,x_n\}\;(\lambda_1 \le \lambda_2 \le... \le \lambda_n )
Vn=span{x1,x2,...,xn}(λ1≤λ2≤...≤λn)则有
R
(
x
)
=
x
T
A
x
x
T
x
=
k
1
λ
1
+
k
2
λ
2
+
.
.
.
+
k
n
λ
n
R(x) =\frac{x^TAx}{x^Tx}=k_1\lambda_1+k_2\lambda_2+...+k_n\lambda_n
R(x)=xTxxTAx=k1λ1+k2λ2+...+knλn
λ
1
≤
R
(
x
)
≤
λ
n
⇒
{
min
x
≠
0
,
x
∈
V
n
R
(
x
)
=
λ
1
max
x
≠
0
,
x
∈
V
n
R
(
x
)
=
λ
n
\lambda_1 \le R(x) \le \lambda_n \Rightarrow \begin{cases} \min_{x\not=\mathbf{0},x\in V_n} R(x) = \lambda_1 \\ \max_{x\not=\mathbf{0},x\in V_n} R(x) = \lambda_n \\ \end{cases}
λ1≤R(x)≤λn⇒{minx=0,x∈VnR(x)=λ1maxx=0,x∈VnR(x)=λn
当我们想求
λ
2
,
λ
n
−
1
\lambda_2,\lambda_{n-1}
λ2,λn−1时,可以通过缩小张成的子空间得到
λ
2
=
min
x
≠
0
R
(
x
)
=
k
1
λ
1
+
k
2
λ
2
+
.
.
.
+
k
n
λ
n
s
.
t
.
k
1
=
0
⋮
λ
i
=
min
x
≠
0
R
(
x
)
=
k
1
λ
1
+
k
2
λ
2
+
.
.
.
+
k
n
λ
n
s
.
t
.
k
1
=
k
2
=
.
.
.
=
k
i
−
1
=
0
\begin{aligned} \lambda_{2}= \min_{x\not=0} & \; R(x) =k_1\lambda_1+k_2\lambda_2+...+k_n\lambda_n\\ s.t. & \;\; k_{1}=0 \\ \end{aligned} \\ \vdots \\ \begin{aligned} \lambda_{i}= \min_{x\not=0} & \; R(x) =k_1\lambda_1+k_2\lambda_2+...+k_n\lambda_n\\ s.t. & \;\; k_1=k_2=...=k_{i-1}=0 \\ \end{aligned} \\
λ2=x=0mins.t.R(x)=k1λ1+k2λ2+...+knλnk1=0⋮λi=x=0mins.t.R(x)=k1λ1+k2λ2+...+knλnk1=k2=...=ki−1=0
同理得
λ
n
−
1
=
max
x
≠
0
R
(
x
)
=
k
1
λ
1
+
k
2
λ
2
+
.
.
.
+
k
n
λ
n
s
.
t
.
k
n
=
0
⋮
λ
n
−
i
−
1
=
min
x
≠
0
R
(
x
)
=
k
1
λ
1
+
k
2
λ
2
+
.
.
.
+
k
n
λ
n
s
.
t
.
k
n
=
k
n
−
1
=
.
.
.
=
k
n
−
i
=
0
\begin{aligned} \lambda_{n-1}= \max_{x\not=0} & \; R(x) =k_1\lambda_1+k_2\lambda_2+...+k_n\lambda_n\\ s.t. & \;\; k_{n}=0 \\ \end{aligned} \\ \vdots \\ \begin{aligned} \lambda_{n-i-1}= \min_{x\not=0} & \; R(x) =k_1\lambda_1+k_2\lambda_2+...+k_n\lambda_n\\ s.t. & \;\; k_n=k_{n-1}=...=k_{n-i}=0 \\ \end{aligned} \\
λn−1=x=0maxs.t.R(x)=k1λ1+k2λ2+...+knλnkn=0⋮λn−i−1=x=0mins.t.R(x)=k1λ1+k2λ2+...+knλnkn=kn−1=...=kn−i=0
因此,我们可以归纳出如下定理
【定理】设 x ∈ L ( p r , p r + 1 , . . . , p s ) , 1 ≤ r ≤ s ≤ n x\in L(p_r,p_{r+1},...,p_s),1 \le r \le s \le n x∈L(pr,pr+1,...,ps),1≤r≤s≤n,则有 min x ≠ 0 R ( x ) = λ r max x ≠ 0 R ( x ) = λ s \mathbf{\min_{x\not=0} \; R(x) =\lambda_r \quad \max_{x\not=0} \; R(x) =\lambda_s} x=0minR(x)=λrx=0maxR(x)=λs
2.1 引出问题:由于 V k V_k Vk不唯一导致得到多个特征值
但以上定理在 p r , p s p_r,p_{s} pr,ps未知下无法使用,因此我们不再指定让某个系数 k i = 0 k_i=0 ki=0,而是选取 k k k维子空间 V k V_k Vk来求,由于 V k V_k Vk是不唯一的,因此可能会得到多个特征值,例如我们想要得到 λ 2 \lambda_2 λ2,则选取 V n − 1 V_{n-1} Vn−1,有如下两种情况
min
x
≠
0
R
(
x
)
=
{
λ
1
if
x
1
∈
V
n
−
1
λ
2
if
x
1
∉
V
n
−
1
\min_{x\not=0}\; R(x)= \begin{cases} \lambda_{1} \quad \;\;\; \text{if} \;\; x_1 \in V_{n-1} \\ \lambda_{2} \quad \;\;\; \text{if} \;\; x_1 \notin V_{n-1} \\ \end{cases}
x=0minR(x)={λ1ifx1∈Vn−1λ2ifx1∈/Vn−1
max
x
≠
0
R
(
x
)
=
{
λ
n
if
x
n
∈
V
n
−
1
λ
n
−
1
if
x
n
∉
V
n
−
1
\max_{x\not=0}\; R(x)= \begin{cases} \lambda_{n} \quad \;\;\; \text{if} \;\; x_n \in V_{n-1} \\ \lambda_{n-1} \quad \text{if} \;\; x_n \notin V_{n-1} \\ \end{cases}
x=0maxR(x)={λnifxn∈Vn−1λn−1ifxn∈/Vn−1
2.2 解决问题:使用极大极小原理固定特征向量
对于上述子空间
V
k
V_k
Vk不唯一情况,得到
min
0
≠
x
∈
V
n
−
1
R
(
x
)
≤
λ
2
max
0
≠
x
∈
V
n
−
1
R
(
x
)
≥
λ
n
−
1
\min_{0\not =x\in V_{n-1}} R(x)\le \lambda_{2} \quad \max_{0\not =x\in V_{n-1}}\ R(x)\ge \lambda_{n-1}
0=x∈Vn−1minR(x)≤λ20=x∈Vn−1max R(x)≥λn−1
为解决此问题,我们使用极小极大原理得到
λ
2
=
max
V
n
−
1
[
min
0
≠
x
∈
V
n
−
1
R
(
x
)
]
,
λ
n
−
1
=
min
V
n
−
1
[
max
0
≠
x
∈
V
n
−
1
R
(
x
)
]
\lambda_{2} = \max_{V_{n-1}} \left[ \min_{0\not =x\in V_{n-1}} R(x) \right] ,\; \; \lambda_{n-1} = \min_{V_{n-1}} \left[ \max_{0\not =x\in V_{n-1}} R(x) \right]
λ2=Vn−1max[0=x∈Vn−1minR(x)],λn−1=Vn−1min[0=x∈Vn−1maxR(x)]
为此,我们归纳出一般的式子,我们
【定理】设 V k V_k Vk是 R n \mathbb{R}^n Rn中的任意一个 k k k维子空间,则
普通特征值
问题与广义特征值
问题从小到大
的第 k k k个特征值和 n − ( k − 1 ) n-(k-1) n−(k−1)个特征值具有如下极小极大性质
λ n − ( k − 1 ) = max V k [ min 0 ≠ x ∈ V k R ( x ) ] , λ k = min V k [ max 0 ≠ x ∈ V k R ( x ) ] \mathbf{\lambda_{n-(k-1)} = \max_{V_{k}} \left[ \min_{0\not =x\in V_{k}} R(x) \right] ,\; \; \lambda_{k} = \min_{V_{k}} \left[ \max_{0\not =x\in V_{k}} R(x) \right] } λn−(k−1)=Vkmax[0=x∈VkminR(x)],λk=Vkmin[0=x∈VkmaxR(x)]
- 左式被称为特征值的
极大极小
原理- 右式被称为特征值的
极小极大
原理
三、矩阵奇异值的极小极大性质
我们通过矩阵瑞利商的极小极大原理,可以衍生到解决奇异值问题,我们将矩阵
A
∈
R
r
m
×
n
A\in \mathbb{R}_r^{m\times n}
A∈Rrm×n的奇异值排列如下 [其中,
σ
i
=
λ
i
(
A
T
A
)
\sigma _i = \sqrt{\lambda_i (A^TA)}
σi=λi(ATA)]
0
=
σ
1
=
σ
2
=
.
.
.
=
σ
n
−
r
≤
σ
n
−
r
+
1
≤
.
.
.
≤
σ
n
0=\sigma _1 =\sigma _2 =... =\sigma _{n-r} \le \sigma _{n-r+1} \le ... \le \sigma _{n}
0=σ1=σ2=...=σn−r≤σn−r+1≤...≤σn
我们令
B
=
A
T
A
B=A^TA
B=ATA,则实对称矩阵
B
B
B的瑞利商如下
R
(
x
)
=
x
T
B
x
x
T
x
=
x
T
(
A
T
A
)
x
x
T
x
=
(
A
x
)
T
A
x
x
T
x
=
∥
A
x
∥
2
2
∥
x
∥
2
2
=
λ
=
σ
R(x) =\frac{x^TBx}{x^Tx} =\frac{x^T(A^TA)x}{x^Tx}=\frac{(Ax)^TAx}{x^Tx}=\frac{\|Ax\|_2^2}{\|x\|_2^2}=\lambda=\sqrt{\sigma}
R(x)=xTxxTBx=xTxxT(ATA)x=xTx(Ax)TAx=∥x∥22∥Ax∥22=λ=σ
则矩阵
A
A
A的第
k
k
k个奇异值和第
n
−
k
+
1
n-k+1
n−k+1个奇异值具有如下极小极大性质
σ
n
−
(
k
−
1
)
=
max
V
k
[
min
0
≠
x
∈
V
k
∥
A
x
∥
2
∥
x
∥
2
]
,
σ
k
=
min
V
k
[
max
0
≠
x
∈
V
k
∥
A
x
∥
2
∥
x
∥
2
]
\sigma _{n-(k-1)} = \max_{V_{k}} \left[ \min_{0\not =x\in V_{k}}\frac{\|Ax\|_2}{\|x\|_2} \right] ,\; \; \sigma _{k} = \min_{V_{k}} \left[ \max_{0\not =x\in V_{k}}\frac{\|Ax\|_2}{\|x\|_2} \right]
σn−(k−1)=Vkmax[0=x∈Vkmin∥x∥2∥Ax∥2],σk=Vkmin[0=x∈Vkmax∥x∥2∥Ax∥2]
其中,
V
k
V_k
Vk是
R
n
\mathbb{R}^n
Rn中的任意一个
k
k
k维子空间。
附录:矩阵直积( Kronecker \text{Kronecker} Kronecker积)的概念
运用矩阵的直积运算,能够将线性矩阵方程转换为线性代数方程组进行求解
【定义】设 A = ( a i j ) ∈ C m × n , B = ( b i j ) ∈ C p × q A=(a_{ij})\in \mathbb{C}^{m\times n},B=(b_{ij})\in \mathbb{C}^{p\times q} A=(aij)∈Cm×n,B=(bij)∈Cp×q,则称如下分块矩阵为 A A A与 B B B的直积( Kronecker \text{Kronecker} Kronecker积)


参考文献
程云鹏, 凯院, 仲. 矩阵论[M]. 西北工业大学出版社, 2006.